2019年秋季学期视觉计算实验室第十一周论文研读预告

时间 : 2019年12月06日 09: 00
地点 : 望江校区基础教学楼B座318实验室
研读成员 : 龙春林、杨啸
Part 1
分享者 : 龙春林
[1]John Henderson, Vi Ly, Shawn Olichwier, et al. Accurate prediction of boundaries of high resolution topologically associated domains (TADs) in fruit flies using deep learning[J]. Nucleic Acids Research, 2019
[2]Yusen Ye, Lin Gao, Shihua Zhang. MSTD: an efficient method for detecting multi-scale topological domains from symmetric and asymmetric 3D genomic maps[J]. Nucleic Acids Research, 2019
论文简介
染色质作为真核生物遗传物质的主要载体,在生命过程中起着非常重要的作用,染色质的功能与它的三维结构紧密相关,例如基因的复制,转录,DNA突变,基因修饰等。而染色质拓扑关联结构域(TAD)是染色体组织中一个重要的二级结构,目前已被认为是染色体折叠的基本单位。因此,准确预测TAD成为当前生物信息学研究热点。
[1]使用深度学习预测TAD的文章,模型实现96%准确率。它使用500bp分辨率的果蝇Hic数据读取段对应的DNA序列信息AGCT,采用one-hot编码,将序列信息转化为输入矩阵。在模型上,使用CNN和BiLSTM感知局部序列模式和长程相互作用信息。为了避免过拟合,每层CNN间使用0.3的丢弃率。
Snipaste_2019-12-04_16-11-29

图1 模型结构图
[2]文章提出了一种基于密度聚类的TAD 预测方法MSTD。MSTD除了可以通过对称的Hic 数据预测TAD(图A)外,还可以通过不对称的Hic数据预测PADs(promoter-anchored interacting domains,图B)。MSTD 首先计算在窗口大小为w范围内的Hic局部密度和与其具有更高局部密度的元素之间的最小距离δij。

2
MSTD将聚类中心确定为δij值异常大的元素,TAD尺寸由可调参数控制。由此实现TAD区域的识别。

3

图2 TAD和PAD示意图

Part 2
分享者 : 杨啸
[1]Khayat M , Karimzadeh M , Zhao J , et al. VASSL: A Visual Analytics Toolkit for Social Spambot Labeling[J]. 2019.(TVCG 2019)
[2]Zhao X , Cui W , Wu Y , et al. Oui! Outlier Interpretation on Multi-dimensional Data via Visual Analytics[C]// 2019:213-224.(EuroVis 2019)
论文简介
[1]在社交媒体平台检测各种垃圾账户十分重要。研究人员发现当前的垃圾账户已经发生转变,想要在账户级别检测新一代垃圾账户变得更具挑战性。因为他们往往通过活动传播垃圾信息,而不是单一账户。因此,需要新的可扩展的检测方法。
为了应对这一挑战,本文提出了VASSL,一个能够加速垃圾账户标记的可视化分析系统。它利用集成计算和一些可视化特性来支持用户从不同角度和不同的聚合级别检测账户。本文提出了两种新型的交互式可视化,以传达时间序列数据中的组模式和多维特征空间中的组模式。
4

图3 VASSL

[2]离群点在网络安全、社会分析和公共卫生等多个领域都有广泛的研究。通过检测和分析异常值,用户可以洞察异常模式或清除数据中的错误。现有的工作大都集中在异常检测的效率和准确性上,忽略了异常解释的重要性。为了解决这些问题,本文提出了Oui,来帮助用户理解、解释和选择由各种算法检测到的异常值。同时,作者还在真实数据集和定性用户研究上展示了一个真实的使用场景,以证明系统的有效性和有用性。
本文首先构建了一个算法矩阵视图来总结各种算法检测到的异常值。用户还可以观察不同的异常模式,并在数据概览中自由选择异常值的上下文。此外,我们提出了一种新颖的设计在值分布视图中结合小提琴图和发散条形图来描述异常值的统计上下文和属性值。这种设计允许用户检查导致异常值异常的潜在因素。
5

图4 Oui