2018年秋季学期视觉计算实验室第7周论文研读预告

论文研读时间: 2018年10月19日9点30分
论文研读地点: 四川大学望江校区基础教学楼B座318(视觉计算实验室)
论文分享者: 杨瑞丰、陈婷婷

分享者一:杨瑞丰

分享内容:Clustrophile 2: Guided Visual Clustering Analysis
分享来源:IEEE Transactions on Visualization & Computer Graphics 2018
分享理由:文章引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,帮助用户选择聚类参数,其响应了可视化可解释性的趋势。
论文简介:
1.内容简介
    数据聚类是探索性数据分析中经常所使用的常见无监督学习方法。然而,在未标记的高维数据中识别相关结构需要对聚类参数以及数据特征和实例进行迭代实验。典型数据集中聚类数量巨大,并且缺乏标签,而难以定义最优解决方案,因此需要用户通过可视确定较好的聚类结果。Clustrophile 2是一种用于引导聚类分析的交互式工具,引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,并帮助快速推理群集之间的差异。
2.主要贡献
    在Clustrophile系统的基础上,增加丰富的聚类算法,参数,评估指标以及可视化工具。
    开发出引导用户进行聚类分析的一体化程序,Clustering Tour。
    定义了更合理的聚类质量衡量指标,考虑了用户反馈,可解释性等方面
3.内容详解
    可视化系统的主视图包括,聚类视图,调参推荐界面,聚类之旅三个部分。
    在聚类视图中,散点图显示了数据降维后投影在2D平面上的数据聚类结果,其中距离编码数据点之间的相似性,而右侧的热力图中每列代表一个聚类,行代表了不同的特征,颜色深浅代表了数据的相对大小。
1-1

图一 聚类视图
    在调参推荐页面中,其算法推荐的功能详尽,并提供了完备的聚类效果衡量标准。Clustrophile 2支持自动调参,删除具有低方差的特征,支持自定义采样;将不同的投影方式进行比较,推荐能将聚类紧凑性和分离性尽量满足的投影(降维)算法;从偏斜分布程度,子簇密度,算法对噪声的鲁棒性,损失函数的单调性等方面定量的衡量聚类结果等。

2-1

图二 调参推荐页面
    在聚类之旅中,通过迭代地改变所有聚类参数,用户可以动态地探索可能的聚类解决方案的空间,从而找到满意的解决方案或数据集。界面包含(a)先前探索的解决方案列表,(b,c)散点图和热图可视化当前的方案,(e)用户提供反馈的一组按钮,喜欢还是拒绝,(d)用户可以约束参数更新方式的模态选择。

3-1

图三 聚类之旅


分享者二:陈婷婷

分享内容:Visualizing Social Media Content with SentenTree
分享来源:IEEE Transactions on Visualization and Computer Graphics 2017
分享理由:在展示了高频词和保留句子结构之间找到了平衡。在保持句子大致结构的前提下获取社交媒体文本中经常出现的文本模式。布局算法中增加三方面约束(水平、垂直)。
论文简介:
1.内容简介
    在社交媒体飞速发展下,社交媒体文本的数量也呈爆炸式增长。这种社交媒体文本包含了公众观点等有用的信息,它与传统文本比,最大的特点是比较短小、对于同一话题的重复和冗余大,这也使得处理起来有挑战。对于高度总结的文本,通常由两种方法:(1)提取有代表性的句子,但对数据集的覆盖度很低,通常得到的是一些opinion leader的言论;(2)找出共同的信息,这个方法可以覆盖整个数据集。典型的是Word Cloud,但它存在的问题是用单一的高频词来描述主题,相邻的词语之间也没有关系。基于以上几种方法,本文提出了一种新的社交媒体文本数据的可视化形式,在展示高频词和保留句子结构之间找到了平衡。
2.主要贡献
    充分利用word cloud的优点,通过字体大小帮助用户建立第一印象
    在可视化中显示句子的结构信息
    给用户提供文本数据集全局概览
    布局算法中增加三方面约束(水平、垂直)
3.内容详解
    本文介绍的构造SentenTree步骤为:
①收集原始的社交媒体文本数据并初始化。
②选择一个文本作为初始模式。
③用graphCreation和pattrenGeneration算法获取模式列表。
④将模式列表分割成单个单词。
⑤对单词进行布局。
---1

图一 模式生成的例子
    在189450条推文中选择支持度最高的模式作为根节点的左子树,将不包含此模式的集合作为根节点的右子树。然后在所有叶节点中寻找支持度最高的模式,寻找比该模式多一个词的超序,作为该节点的左子树,然后将该节点的支持数据库除去左子树后作为该节点的右子树,一直重复该步骤直到显示的词数达到需求。

---2

图二 借助图一数据生成的Senten Tree

---3

图三 未加布局约束效果

---4

图四 添加布局约束效果
    添加水平和垂直约束。 水平约束:经常成对出现的词语在布局时也呈水平并紧邻。 垂直布局:共享同一模式的词语在布局时呈垂直,根据计算词语之间的距离来确定垂直距离。

---5

图五 Senten Tree在世界杯的应用——对每次进球15分钟时间内的推文进行分析