时间:2019年5月16日 09:30
地点:望江基础教学楼B座318实验室
研读成员:胡宇佳、蔡承轩
分享者一:胡宇佳
[1]Bai S , Kolter J Z , Koltun V . An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling[J]. 2018.
[2]Zhuang Z, Shen X, Pan W. A simple convolutional neural network for prediction of enhancer–promoter interactions with DNA sequence data[J]. Bioinformatics, 2019.
论文简介:
[1]实验表明,在语音识别、机器翻译领域,CNN结构比RNN结构的效果要好。那么,在新的序列任务/数据集出现时,应该选择哪种结构呢?本文介绍了一种融合序列建模、因果卷积、扩展卷积和残差连接的CNN结构,称为TCN(时间卷积网络),在某些任务中的效果优于LSTM以及GRU。
[2]基于深度学习预测EPIs(增强子和启动子相互作用)的方法有SPEID:它首先利用CNN网络提取序列特征,再用LSTM根据DNA序列特征依赖性建模,达到了较高的预测效果。本文假设DNA序列并不存在长程依赖关系,仅使用和SPEID相似的CNN结构去预测EPIs,达到了和SPEID相似的效果;在此基础上提出两种转移学习的方法,在此基础上进一步提高了预测精度。
分享者二:蔡承轩
[1]Guo S, Du F, Malik S, et al. Visualizing Uncertainty and Alternatives in Event Sequence Predictions[C]ACM SIGCHI Conference on Human Factors in Computing System. 2019.
论文简介:
数据分析人员在处理带有时间戳的事件序列问题时,会应用一些机器学习和统计学的方法,但是这样得出来的结果却难以明确的解释。特别是在事件序列预测中,很难表达出不确定性和可能的替代路径或结果。在这项工作中,通过对五名机器学习实践者的访谈,这篇论文迭代地设计了一种新的可视化方法,用于探索多个记录的事件序列预测结果。通过这个方法,用户能够查看最可能的预测结果和可能的替代方案以及不确定性信息。通过对18名参与者的对照研究,这篇论文发现,当所有的预测都显示出来时,用户更有信心做出决定,当他们在两个预测相似的选项中做出选择时,他们会考虑更多的选择。
图1:(a)历史事件序列与它们最近的事件对齐。(b)历史序列桑基图。(c)每个序列未来事件的概率。预测中的每一步都是一个概率分布可用的事件类别,这导致可能的路径数呈指数增长。(d)所有的概率路径序列聚合在桑基图中,节点的大小和链接的宽度与概率成正比。(e)最在每个预测步骤中只保留最可能的事件,从而导出可能的未来路径。(f)最可能的未来路径在桑基图中聚合,节点的大小和链接的宽度与聚合的总体成正比。
图2:探索选择可视化预测不确定性:(a) 以尺度为导向设计,它使用节点区分的概率的大小,(b)色彩饱和度面向设计、编码概率的色彩饱和度为每个事件类别,和(c) 以深浅为导向的设计,独立事件概率农场事件类别与灰度编码(不透明)。
图3:(a)三个具有相同顶部预测的记录,因此将聚合为一个节点。(b)面向组合的选择(例如,饼图、树形图),它直接按类别聚合顶级预测和备选方案的概率。(c-e)面向层次的选择,将预测结果组织成(c)层次树,通过水平冰柱布局紧凑排列,用(d)每个矩形的宽度或(e)颜色不透明度编码平均概率。最后的设计改进了面向层次选择的布局和概率编码。