2020浙江大学可视化暑期学校-第十天

课程: 文本与文档可视化
讲师: 傅四维
讲师简介: 之江实验室副研究员。在国际高水平刊上发表10余篇论文,其中三篇发表在可视化与可视分析领域旗舰期刊IEEE Transactions on Visualization and Computer Graphics(IEEE TVCG,CCF A类期刊)。现担任IEEE VIS short paper程序委员会委员。
课程简介: 本次课程先简要讲述了文本可视化释义和文本信息分析基础,然后重点介绍了三类文本可视化方法,分别是文本内容可视化、文本关系可视化、文本多层面信息的可视化。

一. 文本可视化释义

1. 文本信息的层级
  • 词汇级(Lexical Level):文本的基本单元,如字、词、短语。
  • 语法级(Syntactic Level):文本的结构信息。
  • 语义级(Semantic Level):文本内容的含义。
2. 文本可视化研究方向
  • 文本类型:单文档、文档集合、时序文档。
  • 文本特征:内容、结构、多层面信息。
3. 文本可视化流程

文本可视化的工作流程涉及三个部分:文本信息挖掘、视觉设计和人机交互。

图1 文本可视化流程图

二. 文本信息分析基础

课程讲述了三种最常用的文本分析技术:分词技术、向量空间模型和主题抽取。

1. 分词技术

分词技术通常用于文本数据的预处理。

图2 分词流程
2. 向量空间模型

向量空间模型是利用向量符号对文本进行度量的代数模型。

图3 向量空间模型
3. 主题抽取

主题模型从语义级别描述文本集合内各个文本的语义内容。

图4 主题模型

三. 文本可视化方法

1. 文本内容可视化

文本内容可视化以文本内容作为信息对象。课程例举了下述六种文本内容可视化。
1)基于关键词的可视化
主要方法有词云及其改进形式、文档散和文档卡片。

图5 形状布局的词云

图6 改进的词云

图7 文档散

图8 文档卡片

2)时序文本内容可视化
主题河流是一种常用的展示时序文本内容演化的可视化方法,现有与词云结合等改进方法。

图9 主题河流图

图10 改进的主题河流图

3)文本特征分布可视化
文本特征指文档中关键词、句子平均长度等。常见的可视化方法有展示词频和分布的文本弧、展示句子平均长度的文献指纹等。

图11 文本弧

图12 文献指纹

4)情感分析可视化
情感分析可以挖掘出文本中的主观情感信息(中性、消极、积极),再进行可视化展示。下图示例中向上的冷色调羽毛表示开心、惊喜等积极情绪,向下的暖色调羽毛表示生气、悲伤等消极情绪。

图13 情感弧

5)检索可视化
在进行信息检索时,可视化方法能揭示结果的分布规律,辅助用户了解检索结果。

图14 可视化检索结果

6)软件可视化
软件可看作一种特殊的文本,已有一些对软件设计、软件系统及代码进行可视化的方法。

图15 可视化代码文件
2. 文本关系可视化

基于文本关系的可视化的目的是表达文本或文本集合之间的关系信息,例如文本之间的引用、文本集合内容的层次关系等。下图所示的新闻地图采用树图组织类型相近的新闻。

图16 文本关系可视化——新闻地图
3. 文本多层次信息可视化

文本集合中存在多个层面的信息和上下文关联信息,如时间、地点等。如何有效地整合多层面的信息是文本可视化的研究方向之一。下图所示的平行标签云中,每一列代表用户感兴趣的某一层面信息,折线代表了用户感兴趣的关键词在不同层面的分布情况。

图17 平行标签云