时间: 2018年05月17日 09:30
地点: 望江基础教学楼B座318实验室
研读成员:罗富智
研读内容:
Shixia Liu, Xiting Wang, Christopher Collins, Wenwen Dou, Fangxin Ouyang, Mennatallah El-Assady, Liu Jiang, and Daniel A. Keim. Bridging Text Visualization and Mining: A Task-Driven Survey. IEEE TVCG 2018
论文简介:
1.简介
为探究文本可视化、文本挖掘和分析任务之间的关系,文章全面分析了1992 - 2017年间发表的263篇可视化论文和4,346篇文本挖掘论文。从分析中,文章衍生出大约300个概念(可视化技术,挖掘技术和分析任务),并为每种概念构建了一个分类,同时概念之间的同现关系也被提取出来。文章提供了一个基于web的可视化工具,用于分析文本可视化、文本挖掘和分析任务的研究趋势与关联关系。
图 1 http://visgroup.thss.tsinghua.edu.cn/textvis
图 2 分析流程
2.论文主要工作
1)一种半自动分析方法,侧重于提取,理解和分析可视文本分析领域的主要概念。该方法能够扩展用于分析其他研究领域。
2)三个概念分类法(文本可视化、文本挖掘和分析任务)和一个数据驱动方法以提取它们之间的关系,更好地揭示总体研究趋势。
3)基于web的可视化工具,可用于分析可视文本分析中的主要研究趋势和潜在研究方向。http://visgroup.thss.tsinghua.edu.cn/textvis
4)对可视文本分析中的文献进行综合性调查,根据文章的技术和任务分类法对数千篇论文进行分类。
3. 总结
1)根据文章的分析过程,我们能够学到文本可视分析的一整套流程。
2)文章在进行概念提取与分类的过程中,采取的是半自动化方法。先使用自动化方法进行初步提取与分类,再由专家人工打标记与纠错,整个过程将迭代进行。日后我们在进行文本分析时可能也需要投入大量精力进行人工标注,而且在这个过程中知识经验非常重要。
3)文章的成果-基于web的可视化工具,可以指导我们进行文本可视分析,包括现有的文本分析任务和需要用到的可视化技术与文本挖掘技术。
4)文章对文本挖掘与文本可视化技术的研究趋势进行了分析,可以看出文本挖掘技术的发展比文本可视化技术的发展快。我们可以选出那些可视化研究较少或没有可视化研究的文本挖掘技术来当作我们未来的研究方向。