课程:Visual Analytics of Text Data
讲师:Jaegul Choo
讲师简介:
Jaegul Choo是韩国大学计算机科学与工程系的助理教授。他专注于机器学习和视觉分析的交叉,在TVCG,CHI,VAST,CG&A,CVPR,AAAI,IJCAI,KDD,WWW,WSDM,ICDM, TKDD,DMKD,ICWSM和SDM等两个领域的主要场所发布超过60篇技术文章。
课程简介:
1.文本的向量编码技术
Jeagul Choo 教授先通过图像数据单位像素的向量序列化表达的例子,引出了文本数据同样可以将其作为向量化表达的主题。为了使得同学们更好地理解如何将文本数据化归为一个个向量,Jeagul Choo 教授从one-hot vector入手,讲述了one-hot vector 可以将离散特征的取值扩展到欧式空间,使得特征之间的距离计算和相似度计算都十分方便。再由one-hot vector 的缺陷引到了词嵌入(Word Embedding)算法。
词嵌入算法可以大幅度地减少one-hot vector 带来的词向量维度过大和数据矩阵过于稀疏的问题,同时通过向量间的余弦值大小来衡量两者之间的相似度。课程现场对词嵌入进行了可视化展示,使人印象深刻。最后又提及了现在最常用并且流行的方法,即Word2Vec。依赖于深度学习,它可以自动地实现单词语义相似性的度量和词汇语义的类比。
2.文本可视化技术
课程讲述了文本数据可视化的基本方法,并对每个可视化方法都进行了演示。主要的可视化方法涉及到了诸如词云(Word Cloud)、词树(Word Tree)、主题流(Theme River)和词汇网络(Phrase Nets)。
3.主题模型
在文本可视化过程中,一篇文章的主题往往由不同的关键词组成,不同的关键词含有不同的概率,从而不同的主题会因为关键词的不同,其对应的权值也会不同。而主题模型是一种对于文档集合给出一系列主题的技术。课程演示了不同的主题建模可视化系统,如Car Reviews、TopicLens、VisIRR、TopicOnTiles等。