时间:2022年10月13日(本周四) 09:30
地点:望江校区基础教学楼B座318实验室
研读成员:王凤杰 李希垚
Part1
分享者:王凤杰
分析内容:
[1] Li X, Wang Y, Wang H, et al. NBSearch: Semantic Search and Visual Exploration of Computational Notebooks[C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. 2021: 1-14.
[2] Chen Z, Xia H. CrossData: Leveraging Text-Data Connections for Authoring Data Documents[C]//Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. 2022: 1-15.
论文简介:
[1] 对于使用计算型笔记本(如Jupyter)的开发者来说,代码搜索是一项重要而频繁的活动。笔记本的灵活性给有效的代码搜索带来了挑战,而面向传统软件代码的搜索界面可能是有限的。在本文中,我们提出了NBSearch,一个新颖的系统,支持笔记本集合中的语义代码搜索和搜索结果的交互式视觉探索。NBSearch利用先进的机器学习模型来实现自然语言搜索查询,并采用直观的可视化来呈现笔记本内和间复杂的关系。我们通过与一家大型软件公司的两位专家合作来开发NBSearch。我们通过一系列的实验对模型进行了评估,并对整个系统进行了受控的用户研究。结果表明我们的分析框架的可行性和NBSearch在支持大型笔记本集合中的代码搜索方面的有效性。
[2] 数据文件在记录、展示和传播数据方面起着核心作用。尽管旨在支持数据分析、可视化和交流的应用程序和系统激增,但编写数据文件仍然是一个费力的过程,需要在数据处理和编写工具之间不断来回切换。与八位专家的访谈显示,他们创建数据文件的工作流中包含了许多繁琐、重复和容易出错的操作。我们发现文本和数据之间缺乏持久的连接是问题的关键所在。因此,我们开发了CrossData,一个将文本-数据连接作为持久的、互动的、第一类对象的原型。通过自动识别、建立和利用文本-数据连接,CrossData实现了丰富的交互,以协助数据文档的编写。与八个用户的专家评估表明了CrossData的实用性,它不仅减少了编写数据文档的人力,而且为填补数据探索和编写之间的差距提供了新的可能性。
Part2
分享者: 李希垚
分享内容:
[1] Wang, L., Zhong, C. gGATLDA: lncRNA-disease association prediction based on graph-level graph attention network. BMC Bioinformatics 23, 11 (2022).
[2] SHENG N, HUANG L, WANG Y, et al. Multi-channel graph attention autoencoders for disease-related lncRNAs prediction [J]. Briefings in Bioinformatics, 2022, 23(2).
论文简介:
[1] 长链非编码RNA(lncRNA)通过调节基因表达影响人类疾病。鉴定lncRNA -疾病关联 (LDA) 将有助于疾病的诊断、治疗和预后。然而,通过生物实验确定LDA费时、费力、低效。因此,开发高效、高精度的LDA预测计算方法具有重要意义。本文提出了一种基于图级图注意力网络的新型计算方法gGATLDA来预测LDA。首先,提取每个lncRNA疾病对的封闭子图;将lncRNA相似性和疾病相似性作为子图中的节点属性来构建特征向量。最后,我们使用训练过的GNN模型来预测lncRNA-疾病的关联分数。实验结果证明了预测的准确性;其中案例研究表明,我们的方法可以有效地识别与乳腺癌、胃癌、前列腺癌和肾癌相关的lncRNA。

[2] 针对LDA预测问题,本文提出了一种多通道图注意力自动编码器模型MGATE。首先,基于lncRNA、miRNA和疾病之间的相似性/相关性,建立lncRNA-miRNA-疾病复合图,以整合它们之间的复杂关联;为了充分提取节点的综合信息,我们使用图自动编码器从复合图、图间和图内学习多种表示。第三,采用图级注意力机制集成模块自适应地合并三种表示,并采用组合训练策略优化整个模型,保证多图嵌入表示之间的互补性和一致性;最后选择随机森林来预测LDA关联评分。实验结果表明,MGATE的性能明显优于七种最先进的方法。三种癌症的案例研究进一步证明了MGATE识别疾病相关lncRNA的能力。
