2019年秋季学期视觉计算实验室第十周论文研读预告

时间: 2019年11月29日 09: 00
地点: 望江校区基础教学楼B座318实验室
研读成员: 明章强、张馨艺
Part 1
分享者: 明章强
[1]Wang Qianwen,Yuan Jun,Chen Shuxin,Su Hang,Qu Huamin,Liu Shixia. Visual Genealogy of Deep Neural Networks.[J]. IEEE transactions on visualization and computer graphics,2019.
[2]Wu Aoyu,Qu Huamin. Multimodal Analysis of Video Collections: Visual Exploration of Presentation Techniques in TED Talks.[J]. IEEE transactions on visualization and computer graphics,2018.
论文简介:
[1]在过去的几年中,深度神经网络(DNN)在包括分类、自然语言处理和计算机视觉等许多应用中都表现出较好的性能。但是,由于DNN架构的复杂性和多样性,很难获得有关DNN的进化和体系结构相关的摘要。
在本文中,作者提出了一种交互式可视化工具DNN族谱,能够提供具有代表性DNN及其进化关系的可视化摘要。DNN族谱能够帮助用户从架构、性能和进化关系等多个方面学习 DNN。该工具的核心是根据140篇论文的分析,对66个代表性DNN进行系统分析和可视化。采用有向无环图说明这些DNN之间的进化关系,并突出显示代表性DNN。开发了基于兴趣度(DOI)算法的焦点+上下文可视化方式,将用户定向到相关内容来促进对这些 DNN的探索。并使用相同的一组网络字符,促进在进化过程中对 DNN 的理解和比较。最后,文章通过对两个案例的研究,证明DNN族谱的实用性和可用性,能够为用户提供理解、应用和优化DNN的指导。

DNN--

图1 DNN 族谱

[2]人们通常很容易判别一个出色的演讲,但是解释表现出色演讲的原因却非常困难。教育领域的许多研究已经揭示了很多演讲技巧,但它们常常是重叠的,有时甚至是相互矛盾的。
本文提出了一种用来分析视频集合中多模式内容的可视化分析系统,这项研究旨在探讨 TED 演讲中的言语和非言语演讲技巧。该系统具有三个不同层次的视图:(1)字符投影视图,便于对演讲风格进行聚类分析;(2)比较视图,用于显示演讲技巧的时间分布和并发性,并且支持簇内分析;(3)视频视图,对视频的上下文化进行探索。最后,通过对语言学家和大学生的案例研究以及用户的定量反馈,证明了可视化分析系统在视频集合的多模式分析中的有效性。

TED_--

图2 TED演讲技巧多模式分析

Part 2
分享者: 张馨艺
[1] Zeng H, Wang X, Wu A, et al. EmoCo: Visual Analysis of Emotion Coherence in Presentation Videos[J]. IEEE Transactions on Visualization and Computer Graphics, 2019.
论文简介:
情绪在人类交流和公开演讲中起着关键作用。人类的情感通常通过多种方式表达。因此,探索多媒介下的(包括面部,声音以及音频)情绪及其一致性对于理解演讲中的情绪表达,提高演讲技巧具有重要价值。
然而,手动观看和学习演讲视频通常乏味且耗时。缺乏工具来帮助进行有效和深入的多层次分析。现有的多媒体研究主要集中于整合多模型特征来识别和分析表达中的整体情绪,不足以分析各种媒介下的不连贯情绪,这些情绪可能是偶然表现出来的,也可能是故意表现的。为此,需要一个分析工具来系统地探索和解释跨行为模式的情感一致性,以获得对情感表达的更深层次的理解。
因此,这篇论文提出了一个交互式的视觉分析系统EmoCo,以促进对演示视频中演讲者跨面部、文本和音频模式的情感一致性的有效分析。提供了一个通道连贯视图和一个句子聚类视图,帮助用户快速了解情感连贯性及其时间演变。此外提供详细视图和词视图帮助用户分别从句子层级和单词层级进行详细的探索和比较。
最后,作者通过两个基于TED演讲视频的使用场景和对两个领域专家的访谈,对所提出的系统和可视化技术进行评估。结果证明了系统在理解演示中的情感连贯性方面的有效性。
zxy_Emoco

图3 EmoCo系统主视图