时间: 2018年3月15日 9:30
地点: 基础教学楼B座318
研读成员: 胡宇佳
研读文章:Visualizing Social Media Content with SentenTree
论文简介:
该论文于2017年发表在IEEE TVCG中,属于社交媒体可视化中的文本可视化。和传统文本相比社交媒体文本包含大量的短文本信息,分别由不同的用户创造。对于给定的主题,我们可以在很短的时间内累积大量的文档,但其中包含大量高度重复和冗余的信息。
SentenTree是一种将非结构化的社交媒体文本内容可视化的新技术。词云会忽略句子结构,将文本拆分为单词进行可视化;词树是在词云的基础上保持上下文以及句子结构信息,但需要用户选择其中的一个单词。SentenTree以词云和词树为基础,克服了这些限制。通过节点链接图的方式展示单词之间的关系。节点的空间结构表示语义顺序,节点的大小表示其出现次数。SentenTree在展示最常见的词语和保留句子结构之间寻求平衡,为人们提供了文档集合汇总最常见表达形式的高级概览,并允许通过交互深入细节,使用户快速理解关键内容和评价。
sentenTree设计目标:
- 利用词云的特质,通过字体大小帮助用户建立整体(第一)印象
- 可视化展示单词间的句子结构
- 可视化效果简洁的同时覆盖尽可能大的数据集
- 给用户提供数据集的全局概览(模式生成算法是增量式的)
SentenTree的工作流程:
- 加载数据并进行预处理
- 抽象出频繁序列模式并构建图表型数据结构
上图展示了树的构建过程,叶子结点为获取到的模式列表。然后再将叶子结点分割为单词。单词分割的过程中满足以下约束:- 单词顺序约束
- 垂直方向约束
- 水平方向约束
上图为未做处理的布局,下图为进行三种约束之后的布局
- 将图表型数据可视化并显示在屏幕上
以世界杯进球为例,分析的数据是2014年世界杯第一场比赛中每个进球期间获取的15分钟内的twitter数据。
第一个进球:brazil,marcelo,score,first,goal,world,cup可以知道,巴西球员马塞洛打入世界杯首球,这也是他在世界杯的首个进球。
第二个进球:从brazil,neymar,1-1中可以知道巴西球员内马尔攻进一球将比分改写为1-1。
第三个进球:brazil, neymar, score, penalty, 1-2可以知道巴西球员内马尔通过点球将分数改写为1-2
总结:sentenTree可以帮助用户快速获得社交媒体文本内容的概览信息,这是目前工作无法做到的。但它仍存在一些缺点,如可视化会产生大量空白;无法传递任何时间顺序信息;算法无法交互式实时运行。
参考文献:
[1]Hu M, Wongsuphasawat K, Stasko J. Visualizing Social Media Content with SentenTree[J]. IEEE Transactions on Visualization & Computer Graphics, 2017, 23(1):621.
[2]Chen S, Lin L, Yuan X. Social Media Visual Analytics[J]. Computer Graphics Forum, 2017, 36(3):563-587.