2020年秋季学期视觉计算实验室第十五周论文研读预告

时间： 2021年01月07日（周四） 09：00
地点：基础教学楼B座318实验室
研读成员：高承睿朱浩天
研读内容：

主题一：基于神经网络的红外与可见光图像融合报告人：高承睿

分享内容：
[1] H. Li, X. Wu, J. Kittler, "Infrared and Visible Image Fusion using a Deep Learning Framework". Pattern Recognition (ICPR), 2018 24rd International Conference on. IEEE, 2018: 2705-2710.

[2] H. Li, X. Wu, T. Durrani, "Infrared and visible image fusion with ResNet and zero-phase component analysis". Infrared Physics & Technology, 2019, 102: 1-10.

论文简介：
[1] 红外图像可包含丰富的结构信息，可见光图像包含丰富的细节信息，通过一定的融合算法得到的融合图像包含了互补信息、细节信息及结构信息。该算法利用神经网络框架提取细节特征的思想值得借鉴，并且该算法中所提出的融合策略可适用于医学图像、多聚焦图像融合。

该论文提出了一种有效的基于深度学习框架的图像融合算法，利用深度学习框架生成包含红外和可见光图像所有特征的单一图像。将源图像分解为基础层和细节层，采用加权平均法对基础层进行融合，使用深度学习网络来提取多层特征，对这些特征采用L1范数和加权平均策略生成最终融合的细节层，通过逆变换处理融合后的细节层与基础层得到融合图像。实验结果表明该算法在客观与主观评价上具有优越性。

图1. VggML融合框架

[2] 特征提取和处理是图像融合算法中的关键任务，而基于深度学习的方法大多直接使用深度特征，没有对特征进行处理，这会导致在某些情况下图像融合性能下降。针对这一缺陷，该算法提出了一种基于深度特征和零相位分量分析的融合框架。

该算法利用残差网络（ResNet）提取深层特征从源图像。再利用ZCA (zero-phase component Analysis)和L1范数对深层特征进行归一化处理特征并获得初始权重图。最终的权重图是通过对初始权重图采用一个soft-max操作得到。最后利用加权平均法重建融合图像。该算法与现有的融合方法进行了比较，实验结果表明，该算法在客观评价与视觉质量两方面都可以取得了较好的性能。

图2. Resnet-ZCA融合框架

主题二：自然语言交互的可视数据解释诊断技术报告人：朱浩天

分享内容：
本部分将以两篇收录在CHI’20的论文为例，与大家分享并探讨基于自然语言交互的可视化技术用于数据解释和诊断的相关工作的最新进展。

[1] D. H. Kim, E. Hoque, and M. Agrawala. Answering Questions about Charts and Generating Visual Explanations. In Proc. CHI Conference on Human Factors in Computing Systems. ACM, Honolulu, HI, USA, 2020. doi:10.1145/3313831.3376467

本文工作主要关心以图表和自然语言问题作为输入，如何自动输出问题的答案和视觉解释，具体而言：

作者首先收集并构建了一个来自Vega-Lite示例、Pew Research Report、D3社区、WikiTableQuestions的图表语料库，然后通过众包，收集对这些图表的问题和回答。

针对如何回答通过自然语言提出的图表的问题并自动得到答案和解释，本文提出了如下的流程：

图1-1. 工作流

1）基于Vega—Lite提取数据表和视觉编码

图1-2. 基于Vega-Lite提取数据表和视觉编码

2）通过语义解析将针对视觉特征的问题，如“哪个类别有最长的橙色成分”转换成非视觉的问题，如“哪个类别所占的百分比最高”

图1-3. 视觉问题到非视觉问题的转化过程

3）采用逻辑查询的lambda表达式Sempre来回答问题，并使用基于模板的自然语言生成来产生解释。

评估方面：作者在收集的图表语料库和问答上，本文与目前性能最佳的自动问答方法Sempre进行了对比（图1-4）。绿色表示正确答案；红色表示错误答案。在Q20, Q22, Q24上，本文的方法也没有得到正确的回答。

图1-4. 部分样本问题的实验对比（绿色为正确答案，红色为错误）

在一组用户评估中，作者证明了通过本文提出的方法生成的视觉解释在透明度方面明显优于现有的方法，并且在有用性和信任方面与人类生成的解释相当。

具体的工作和实验评估请访问原文或其补充材料。

本论文来自斯坦福大学的Maneesh Agrawala教授及其博士生Dae Hyun Kim和约克大学的Enamul Hoque副教授。他们的其他工作可以通过超链接进行访问。

[2] C. Lai, Z. Lin, R. Jiang, Y. Han, C. Liu and X. Yuan. Automatic Annotation Synchronizing with Textual Description for Visualization. In Proc. CHI Conference on Human Factors in Computing Systems. ACM, Honolulu, HI, USA, 2020. doi:10.1145/3313831.3376443

本文工作主要关心以图表和文字描述为输入，自动生成图表的动画解释，具体而言：

作者利用Mask R-CNN模型从给定的视图中识别并提取视觉元素，同时，对给定的描述文本进行解析以生成视觉搜索请求。随后，将视觉元素与文本句子以动画的形式逐步展示在输入的图表中，以引导观众的注意力。

演示视频可在此访问

该工作的设计流程灵感来自于对图表手动注释的四步过程：首先，工作人员浏览视图并理解视图元素实体和属性。随后，阅读描述文本并比较哪些实体被描述。接下来，在视图侧搜索这些被描述的实体。最终，突出这些视图元素并添加文字描述。

图2-1. 工作流

具体技术实现上，该工作主要包含三部分模块：

1）目标检测：
目标检测的实现方法基于Mask R-CNN网络。训练数据是来自网页上收集并手动标记的图表语料库。经过训练，该模型可以识别各种视觉实体并输出其粗糙轮廓，并对其进行进一步处理，得到精细轮廓。对于每个实体，通过计算机视觉算法来捕获其轮廓内的视觉属性和可见文本(例如标签）。检测结果全部发送到注释模块，等待查询。可见文本被发送到NLP模块，以帮助解释描述。

2）自然语言处理：
该模块使用在OntoNote5语料库上预训练的spaCy模型将描述划分为多个句子，识别词性(POS)，并提取单词之间的依赖关系。作者构建了一个包含两个词汇表和一个结构库的文本知识库来识别描述视觉属性的关键字，以此解决歧义性和同义词问题。

图2-2. 描述文本处理过程

3）注释生成：
该模块同时接收图表中的可视化实体和描述中的文本实体，我们通过自动视觉搜索来完成查询。可见文本描述的实体可以直接找到，因为它们存在于图像和描述中。视觉属性描述的实体是通过基于预定义匹配规则的交叉过滤找到的。一旦找到一个实体，句子将锚定在其轮廓上。在呈现阶段，对于一个句子，搜索到其焦点实体（视觉实体）后，该句子将被显示在突出的焦点旁。在逐步动画的不同场景中显示不同的句子，以避免遮挡，促进流畅的呈现。注释的样式可以通过交互来定制。

评估方面：
启发自手动注释过程，本工作的技术核心完成了四个任务：即阅读图表、预先表示描述、可视化搜索和注释呈现。前三项任务是为同一个目标进行的：将描述与描述的图像区域正确匹配（G1）。生成注释后，在图表上进行绘制的任务旨在更好地引导观众的注意力（G2），以获得更流畅的呈现。考虑到这两个目标是相互独立的，作者设计了两个不同的用户研究来评估它们。通过对各种用例的测试，作者证明了本文工作的实用性和可用性。

具体的工作和实验评估请访问原文。

本论文来自北京大学的袁晓如教授的团队。他们的其他工作可以通过超链接进行访问。

Navigation

Tag list

2020年秋季学期视觉计算实验室第十五周论文研读预告