课程:文本与文档可视化
讲师:傅四维
讲师简介:之江实验室副研究员,博士毕业于香港科技大学。研究兴趣为文本可视化,人工智能辅助可视分析。
课程简介:文本信息无处不在,譬如,邮件、新闻、工作报告等等都是日常处理的信息。面对文本信息的爆炸式增长和日益加快的工作节奏,通过人工阅读大量文字来获取信息暗藏着的信息理解速度滞后的问题。利用可视化增强人类对文本和文档的理解正是在这样的背景下应运而生。文本可视化应用范围广泛;便签云技术已是诸多网站展示其关键词的常用技术;信息文本图是美国纽约时报等各大纸媒辅助用户理解新闻内容等必备方法。文本可视化还与其他领域结合,如信息检索技术,可视地表达信息检索过程、传达信息检索结果。
1.文本分析技术
(1)Tokenization
傅四维老师先讲了基本的分词技术,如Tokenization,主要用于提取出文本中的关键字,去除“stop words“:a、the、that、etc等。
(2)Vector-space Model
然后傅老师对词向量编码技术做了由浅入深的讲解。首先引入了基于词频统计的词向量技术,即统计一个句子中的字的词频,来向量化。然后可以通过计算余玄值计算两个句子之间的相似度。
Cosθ=(v1·v2t)/(||v1||·||v2||)
但这样的方法存在很多问题,比如:I like ping-pong!和I love table tennis!这两句话的,关键词完全不同但语义一致,以这种方法计算出来的相似度却为0。
于是,傅四维老师引出了TF-IDF这个根据文本主题向量化的技术。
接着老师着重讲了现在用的很广泛的且新的一些技术如:Word2vec、Doc2vec以及fastText。
Word2vec技术是用神经网络的方法,将一个维度很高的(取决于词窗口的大小)高维空间嵌入到维数低得多的连续向量空间中,每个单词或词组映射成一个上下文有关的vector,上下文有关体现在语义相关的不同词的向量距离靠的会很近。而Doc2vec与Word2vec相比,对所有的词整体进行向量化(如简单的求平均或其他更复杂的方法),用于比较不同文档之间的相似性。最后老师讲了最新的由facebook提出的fastText,它用字符级别点n-grams来表示一个单词,来解决word2vec中由于讲每个单词当成原子而造成的不同单词之间内部的相似性的形态特征的丢失,fastText还可以对新词,即对于训练词库之外的单词任然可以构建他们的词向量,因为可以叠加他们的字符n-gram向量。
(3)Topic Retrieving
傅四维老师先阐述了主题提取技术是什么,即是用于对大量文档进行主题分析,如在同一个文档中,可能存在不同的主题:T1、T2…,而在同一个Topic中,有会有很多相关的词汇如W1、W2…且对应的主题或关键词它们都可以有一个概率值。现在主流的技术有Latent semantic Indexing、pLsl、LDA等。主题提取的作用可以用来挖掘文本中topic的层次关系、时间变化等。傅四维老师用了一个生动的图示展示了科技相关的主题中,不同的关键词如computer、apple、mac等词的在词云中的大小位置不断变化的过程,展示了现实生活中相关的电子产品的发展历程。
2.文本可视化技术
(1)基于关键字的可视化
课程中展示了标签云(Tag Cloud)、词云(Word Cloud)、Wordle、文档散(DocuBurst)、文档卡片(Document Cards)等可视化方法。
并简单的提到,在词云的layout绘制中冲突检测即判断是否有重叠的问题是,常用到四叉树(quad-tree)算法。
此外,傅四维老师还提到了一个TVCG2018的研究成果:Consistency-preserving Word Cloud
通过这个研究,可以做到用户通过拖拽改变关键词位置的同时,别的词的位置保持相对位置大题不变的效果。
(2)时序性文本内容可视化
(3)文本特征的分布模式可视化
(4)情感可视化
(5)信息检索可视化
(6)软件可视化
软件可看作特殊的文本,对软件的可视化可以帮助分析程序员diamanté修改、提交等信息。下图中是对每行代码长度的可视化,颜色约红代表对于位置代码长度越长。