时间: 2021年11月11日(周四) 09 : 30
地点: 望江校区基础教学楼B座318实验室
研读成员: 王心翌 刘尚松
Part1
分享者: 王心翌
分享内容:
[1] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805v2, 2019.
[2] Ji Y, Zhou Z, Liu H, et al. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome[J]. Bioinformatics, 2021.
论文简介:
[1] 本文设计了一种新的语言表示模型BERT,它通过在所有层中联合限制上下文来预训练文本的深度双向表示。预训练后的BERT模型仅用一个额外输出层进行微调,就能为更广泛的自然语言处理(NLP)任务创建最先进的模型,而不需要对特定任务的架构进行实质性修改。BERT在11个NLP任务中取得了最先进的性能,包括将GLUE分数提升到80.5%(提升7.7%),MultiNLI准确度提升到86.7%(提升4.6%)等。
[2] 本文开发了一种双向编码器模型DNABERT,以获取基于核苷酸上下文DNA序列的全局信息理解。该研究将DNABERT与广泛使用的全基因组调控元件预测方法进行比较,证明了模型的易用性和准确性。研究发现在使用小任务特定的标记数据进行简单的微调后,单个预训练编码器模型可以同时在预测启动子、剪接位点和转录因子结合位点方面获得最先进的性能。此外,DNABERT能够直接可视化输入序列中核苷酸水平的重要性和语义关系,以便更好地解释和准确识别保守性序列基序和功能遗传变异候选。最后,文章展示使用人类基因组预训练的DNABERT可以微调到许多其他序列分析任务中。
Part2
分享者: 刘尚松
分享内容:
[1] Cheng F, Liu D, Du F, et al. VBridge: Connecting the Dots Between Features and Data to Explain Healthcare Models[J]. IEEE Transactions on Visualization and Computer Graphics, 2021.
[2] Xie T, Ma Y, Kang J, et al. FairRankVis: A Visual Analytics Framework for Exploring Algorithmic Fairness in Graph Mining Models[J]. IEEE Transactions on Visualization and Computer Graphics, 2021.
论文简介:
[1]机器学习 (ML) 越来越多地应用于电子健康记录 (EHR) 以解决临床预测任务。尽管许多 ML 模型表现良好,但模型透明度和可解释性问题限制了它们在临床实践中的采用。在临床环境中直接使用现有的可解释 ML 技术具有挑战性。 通过文献调研以及与平均拥有17年临床经验的六名医生合作,我们确定了三个关键挑战,包括临床医生不熟悉 ML 特征、缺乏上下文信息以及需要队列群体级证据。经过多次迭代后,我们设计和开发了VBridge,这是一种可视化分析工具,可将 ML 解释无缝地整合到临床医生的决策工作流程中。该系统包括一种新颖的基于贡献的分层特征解释可视化和丰富的交互,这些交互将 ML 特征、解释和数据之间的点联系起来。我们通过两个案例研究和与四位临床医生的专家访谈证明了VBridge的有效性,表明将模型解释与患者的上下文记录视觉关联可以帮助临床医生在做决策时更好地解释和使用模型的预测。
[2]图挖掘是推荐系统和搜索引擎的重要组成部分。图挖掘模型的输出通常提供按每个项目的相关性或效用排序的列表。然而,最近的研究已经确定了此类模型中的算法偏差问题,并且提出了新的图挖掘算法来纠正偏差。因此,算法开发人员需要一些工具来帮助他们发现模型中的潜在偏差,同时探索在采用公平感知算法时纠正偏差的影响。在本文中,我们介绍了一种可视化分析框架FairRankVis,旨在探索图挖掘算法中的多类偏差,且支持群体和个人级别的公平比较。我们的框架旨在使模型开发人员能够比较算法之间的多类公平性(例如,将 PageRank 与去偏差的 PageRank 算法进行比较),以评估算法去偏差对群体和个人公平性的影响。我们通过两个检查算法公平性的使用场景来演示我们的框架。