论文研读时间: 2018年10月19日9点30分
论文研读地点: 四川大学望江校区基础教学楼B座318(视觉计算实验室)
论文分享者: 杨瑞丰、陈婷婷
分享者一:杨瑞丰
分享内容:Clustrophile 2: Guided Visual Clustering Analysis
分享来源:IEEE Transactions on Visualization & Computer Graphics 2018
分享理由:文章引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,帮助用户选择聚类参数,其响应了可视化可解释性的趋势。
论文简介:
1.内容简介
数据聚类是探索性数据分析中经常所使用的常见无监督学习方法。然而,在未标记的高维数据中识别相关结构需要对聚类参数以及数据特征和实例进行迭代实验。典型数据集中聚类数量巨大,并且缺乏标签,而难以定义最优解决方案,因此需要用户通过可视确定较好的聚类结果。Clustrophile 2是一种用于引导聚类分析的交互式工具,引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,并帮助快速推理群集之间的差异。
2.主要贡献
在Clustrophile系统的基础上,增加丰富的聚类算法,参数,评估指标以及可视化工具。
开发出引导用户进行聚类分析的一体化程序,Clustering Tour。
定义了更合理的聚类质量衡量指标,考虑了用户反馈,可解释性等方面
3.内容详解
可视化系统的主视图包括,聚类视图,调参推荐界面,聚类之旅三个部分。
在聚类视图中,散点图显示了数据降维后投影在2D平面上的数据聚类结果,其中距离编码数据点之间的相似性,而右侧的热力图中每列代表一个聚类,行代表了不同的特征,颜色深浅代表了数据的相对大小。
分享者二:陈婷婷
分享内容:Visualizing Social Media Content with SentenTree
分享来源:IEEE Transactions on Visualization and Computer Graphics 2017
分享理由:在展示了高频词和保留句子结构之间找到了平衡。在保持句子大致结构的前提下获取社交媒体文本中经常出现的文本模式。布局算法中增加三方面约束(水平、垂直)。
论文简介:
1.内容简介
在社交媒体飞速发展下,社交媒体文本的数量也呈爆炸式增长。这种社交媒体文本包含了公众观点等有用的信息,它与传统文本比,最大的特点是比较短小、对于同一话题的重复和冗余大,这也使得处理起来有挑战。对于高度总结的文本,通常由两种方法:(1)提取有代表性的句子,但对数据集的覆盖度很低,通常得到的是一些opinion leader的言论;(2)找出共同的信息,这个方法可以覆盖整个数据集。典型的是Word Cloud,但它存在的问题是用单一的高频词来描述主题,相邻的词语之间也没有关系。基于以上几种方法,本文提出了一种新的社交媒体文本数据的可视化形式,在展示高频词和保留句子结构之间找到了平衡。
2.主要贡献
充分利用word cloud的优点,通过字体大小帮助用户建立第一印象
在可视化中显示句子的结构信息
给用户提供文本数据集全局概览
布局算法中增加三方面约束(水平、垂直)
3.内容详解
本文介绍的构造SentenTree步骤为:
①收集原始的社交媒体文本数据并初始化。
②选择一个文本作为初始模式。
③用graphCreation和pattrenGeneration算法获取模式列表。
④将模式列表分割成单个单词。
⑤对单词进行布局。