时间: 2019年1月11日 9:30
地点: 四川大学望江校区基础教学楼B座318(视觉计算实验室)
研读成员: 胡宇佳、杨啸
分享者一:胡宇佳
分享文章:
1)Whalen S , Truty R M , Pollard K S . Enhancer-promoter interactions are encoded by complex genomic signatures on looping chromatin[J]. Nature Genetics, 2016, 48(5).
2)Yang Y , Zhang R , Singh S , et al. Exploiting sequence-based features for predicting enhancer–promoter interactions[J]. Bioinformatics, 2017, 33(14):i252-i260.
3)Zeng W , Wu M , Jiang R . Prediction of enhancer-promoter interactions via natural language processing[J]. BMC Genomics, 2018, 19(S2):84.
分享理由:
这三篇论文跟我现在所做的工作,增强子-启动子相互作用(EPIs)预测相关。第一篇文章通过大量的实验特征预测EPIs相互作用,第二篇和第三篇都仅从DNA序列的角度出发去预测EPIs,方法比较新颖。上述论文使用的是同样的数据,采用的研究重点和研究方法各有特色,对我的研究工作有一定帮助。
简介:
论文一整合数百种基因组学数据,以确定准确预测EPIs所必须的最小特征子集。通过大量的实验特征预测三维基因组(远程)EPIs相互作用;论文二从转录因子结合位点(TFBS)处的模序(motifs)信息和增强子/启动子的序列信息两个角度去考虑EPIs预测问题,前者将TFBS处获取到的motif标准化出现频率分别作为增强子和启动子的特征表示,后者则是将序列视为句子,通过word2vec生成词向量去表示该序列,最终将两种方法结合起来,通过梯度提升树预测EPIs相互作用;论文三仅仅通过自然语言处理的方法分别处理增强子和启动子序列,将可变长度的序列用固定长度的短序列(motifs)特征向量表示,考虑了序列中可能存在的上下文信息,同时将attention机制加入到motifs中,找出对序列语义信息贡献最大的motifs并证明通过序列得到的特征是具有生物学意义的,也通过此方法找到了具有潜在生物学意义的特征,并且预测效果达到最优。
论文一流程图
论文二流程图
分享者二:杨啸
论文题目:
ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding
论文来源: IEEE TVCG 2018
论文简介:
本文是对词嵌入的一种应用,用户可以根据自己的需求创建概念,系统根据用户提供的seed word推荐其他词汇,以帮助用户更好的构建自己的概念。同时用户可以利用自己创建的概念对文本进行分析,本文作者提出了一种基于KDE的排序算法,来对评论文本进行排序,以帮助用户筛选出更有价值的信息。
推荐理由:
1)作者构建了名为ConceptVector可视化分析系统,用户可以交互式地定制概念和细化词汇表,并无缝地使用它们分析文档语料库。
2)介绍了双极性概念模型,以此来精细建模。
3)定量比较表明系统构建概念的能力类似于人类标记的能力。