2019年秋季学期视觉计算实验室第十六周论文研读预告

时间: 2020年01月10日 09 : 00
地点: 望江校区基础教学楼B座318实验室
研读成员:高雯雯
研读内容:
[1] W. Cui et al. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural Language Statements[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(1): 906-916.
[2] Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571: 95-106.

论文简介:
论文1:
    信息图表是一种数据可视化类型,广泛应用于商业、金融和医疗保健等领域的广告和通信,它结合了数据内容与视觉点缀,可以以一种引人入胜和难忘的方式有效地传递信息。然而创建一个专业的信息图表并不容易,不仅耗时,通常还需要专业的设计人员来确保感知的有效性和美学效果。虽然目前已有许多创作工具用来促进信息图表的创建,但这些工具通常针对高级用户,有着复杂的编辑操作和技术概念,对临时用户并不友好。针对这些临时用户,本文探索了一种从自然语言语句中自动生成信息图表的方法和系统,并通过样本结果、展品和专家评审证明了系统的可用性和有用性。
---1

图1 Text-to-Viz 创建示例

论文2:
    绝大多数科学知识都是以文本形式发表的,无论是传统的统计分析还是现代的机器学习方法都很难对其进行分析;科学进步依赖于对现有知识的有效吸收,以选择最有前途的前进道路并最大程度地减少重复发明,然而随着科学文献数量的增长,这对一个科学家而言变得越来越困难;材料研究界为了提高对科学知识的识别和使用,已有一些研究集中于使用监督自然语言处理从科学文献中检索信息,但这需要大量手工标记的数据集来进行训练,耗时耗力。
    针对上述需求,本文证明了在没有人类标记或监督的情况下,已发表文献中的材料科学知识可以有效地编码为信息密集的词嵌入,还证明了这种无监督的方法可以在材料被发现前几年就为功能性应用推荐材料,最后指出了一种挖掘科学文献的通用方法。这项工作将使人们能够以一种新的机器辅助科学突破的方式,使个人可以获取科学文献中的大量信息,从而协助科学研究。甚至,这项工作可能预测出新的热电材料类别,有可能获取人类科学家无法直接获取的潜在知识。
---2

图2 Word2vec skip-gram及类比

---3

图3 新型热电材料的预测

---4

图4 预测的验证