时间:2021年11月25日(本周四) 09 : 30
地点:望江校区基础教学楼B座318实验室
研读成员:王凤杰 周怡
Part1
分享者:王凤杰
分析内容:
[1] Cashman D, Xu S, Das S, et al. CAVA: A Visual Analytics System for Exploratory Columnar Data Augmentation Using Knowledge Graphs[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 27(2): 1731-1741.
[2] Xu K, Yuan J, Wang Y, et al. mTSeer: Interactive Visual Exploration of Models on Multivariate Time-series Forecast[C]//Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. 2021: 1-15.
论文简介:
[1] 大多数可视化分析系统假定所有数据搜寻都发生在分析之前,一旦分析开始,数据集就固定了。这种数据构造与分析的分离排除了迭代,迭代可以根据分析过程中就出现的需求来获取信息。将数据构造与数据分析任务分开可能会限制分析的速度和范围。在本文中,我们介绍了CAVA,这是一个将数据整理和数据增强与传统的数据探索和分析任务相结合的系统,能够在分析过程中就地寻找信息。识别要添加到数据集的属性是困难的,因为它需要人类知识来确定哪些可用属性将有助于随后的分析任务。CAVA爬行知识图表,为用户提供从外部数据中提取的一系列可供选择的属性。然后,用户可以在知识图谱上指定复杂的操作,以构建其他属性。CAVA展示了可视化分析如何通过让用户以可视方式浏览可用的数据集以及作为查询构造的界面来帮助用户寻找属性。它还提供知识图谱本身的可视化,以帮助用户理解复杂的连接,如多跳聚合。我们在两个数据集的用户研究中评估了我们的系统能够使用户执行复杂的数据组合而无需编程的能力。然后,我们通过另外两个使用场景演示CAVA的通用性。评估结果证实CAVA在帮助用户执行数据搜寻方面是有效的,并证实了数据增强可作为可视化分析流程的一部分。
[2] 多变量时间序列预测为行业和机构决策提供了重要信息。虽然在该领域有很多可用的模型,但它们的预测结果不一致。因此,选择合适的模型是至关重要的。现有的基于误差度量的选择方法不能深入揭示模型的性能,如显著特征的识别和时间因素(如周期)的影响。本文介绍了一个用于探索、解释和评估多变量时间序列预测模型的交互式系统mTSeer。该系统集成了一套引导过程的算法,以及丰富的交互和可视化设计,以帮助解释模型和实例级别的模型之间的差异。我们通过三个案例研究,包括两个领域专家对真实世界数据的研究、对两个专家的定性访谈以及对三个案例研究的定量评估,展示了mTSeer的有效性。
Part2
分享者: 周怡
分享内容:
[3] Jin D, Huo C, Liang C, et al. Heterogeneous Graph Neural Network via Attribute Completion[C]//Proceedings of the Web Conference 2021. 2021: 391-400.
[4] Chen X, Yan C C, Zhang X, et al. Long non-coding RNAs and complex diseases: from experimental results to computational models[J]. Briefings in bioinformatics, 2017, 18(4): 558-576.
论文简介:
[3] 异构图由不同类型的节点和边组成,包含全面的信息和丰富的语义。近年来,人们提出了许多利用GNN处理异构图数据的优秀模型,这些模型的原理可以被理解为受图结构引导的节点属性平滑,在计算过程中,要求所有的节点都具有属性。这样的条件并不容易满足,在异构图中,往往存在部分节点是缺失属性的。以往的研究采用了一些基于规则的方法来解决这一问题,将属性补全与图学习过程分离开来,影响了模型性能。本文认为缺失的属性可以通过可学习的方式获取,提出了一种基于属性补全的异构图神经网络总体框架(HGNN-AC),包括拓扑嵌入的预学习和基于注意力机制的属性补全两个步骤。HGNN-AC首先利用现有的HIN-Embedding方法获得节点拓扑嵌入,然后以节点间的拓扑关系为指导,对无属性节点聚合其有属性邻居的属性,从而完成属性补全。HGNN-AC可以与任意的异构图神经网络模型相结合,形成新的端到端模型体系。本文在三个来源于真实世界的异构图上进行了实验,结果表明,本文提出的框架优于现有的state-of-the-art基线。
[4] 近年来,越来越多的研究证据表明,lncRNA在许多关键的生物学过程中发挥了重要的作用,其突变与失调能引发多种复杂疾病。目前,只有有限数量的lncRNA被实验验证与人类疾病相关。因此,分析现有的lncRNA-疾病关联,预测潜在的lncRNA-疾病相关关系成为生物信息学的重要任务。本文首先介绍了lncRNA的主要功能、重要的lncRNA相关疾病,关键的疾病相关lncRNA,以及一些公开的lncRNA序列、表达、功能数据库。此外,本文介绍了一些可以有效应用于大规模识别疾病相关lncRNA的start-of-the-art计算模型,并选择了在预测中分值最高的疾病相关的lncRNA进行实验验证。本文还分析了这些模型的局限性,讨论了未来lncRNA-疾病关联预测计算模型的发展方向。