2019年春季学期视觉计算实验室第7周论文研读预告

时间: 2019年4月11日 09:30
地点: 望江基础教学楼B座318实验室
研读成员一: 龙春林
研读内容:
[1] Zhi-Hua Zhou and Ji Feng. (2017) Deep Forest: Towards an Alternative to Deep Neural Networks.IJCAI-17.
[2] Oluwatosin Oluwadare. et al. (2017) ClusterTAD: an unsupervised machine learning approach to detecting topologically associated domains of chromosomes from Hi-C data. BMC Bioinformatics.18:480.
在本次论文研读中,讲者分享一篇有关深度森林和一篇生物信息学方向的文章。论文[1]受深度神经网络启发,在随机森林的基础上开发出一种多粒度级联的深度森林模型-gcForest。相对于深度神经网络,gcForest易于并行,训练和调参;论文[2]提出一种基于k-means的聚类算法,能够有效地预测TAD及其边界。
论文简介:
[1] 深度神经网络需要大规模的训练集,强大的计算设备,并且超参数调整方面需要付出巨大努力。本文受深度神经网络启发,提出gcForest,一种多粒度级联的决策树集成方法,在广泛的任务中具有与深度神经网络高度竞争的性能。gcForest只需少量的训练数据,具有更少的超参数,也可以通过几乎相同的超参数设置来实现优异的性能。用户可以根据可用的计算资源控制训练成本,并且易于并行实现。
--1

gcForest 流程结构

--2

超参数比较

[2] 拓扑关联结构域(TAD)目前已被认为是染色体折叠的基本单位,并被认为是染色体组织中一个重要的二级结构。如何通过计算方法提高拓扑关联结构域边界预测精度成为生物信息学研究的热点。本文提出ClusterTAD模型,通过k-means算法实现TAD的准确预测。
--3

实验流程

--4

迭代预测

研读成员二: 蒋为鹏
研读内容:
[1] P. Rathore, D. Kumar, J.C. Bezdek, S. Rajasegarar and M. S. Palaniswami, " A Rapid Hybrid Clustering Algorithm for Large Volumes of High Dimensional Data," IEEE Transactions on Knowledge and Data Engineering, 2018.
论文简介:
如何对大规模的高维数据集进行聚类一直以来是一个具有挑战性的问题,当前的很多算法在面临实例数目和特征维度同样巨大的数据时,很难对数据进行有效的聚类处理。本文介绍了一种快速聚类方法,该方法适用于实例数目和特征维度同样巨大的数据,在很好的克服维度过高带来的“维度灾难”等问题的同时,又具有很好的延展性。
--5

工作流程图