时间:2022年3月31日(周四) 09 : 30
地点:望江校区基础教学楼B座318实验室
研读成员:程俊龙、李旺
研读内容:
Part1
分享者:程俊龙
分享内容:
[1]Guo M H, Lu C Z, Liu Z N, et al. Visual attention network[J]. arXiv preprint arXiv:2202.09741, 2022.
[2]Wu H, Chen S, Chen G, et al. FAT-Net: Feature adaptive transformers for automated skin lesion segmentation[J]. Medical Image Analysis, 2022, 76: 102327.
论文简介:
[1]虽然最初是为自然语言处理任务而设计的,但自注意力机制最近已经风靡了计算机视觉的各个领域。然而,图像的2D特性给在计算机视觉中应用自我注意带来了三个挑战。(1)将图像视为一维序列忽略了其二维结构。(2)二次复杂度对于高分辨率图像来说开销太大。(3)它只捕捉空间适应性,而忽略了通道适应性。在本文中,我们提出了一种新的大核注意力(LKA)模块,在避免上述问题的同时,实现了自注意力中的自适应和长程相关性。我们进一步介绍了一种基于LKA的新型神经网络,即视觉注意网络(VAN)。虽然非常简单和高效,但在广泛的实验中,VAN的性能远远超过了最先进的视觉转换器和卷积神经网络,包括图像分类、对象检测、语义分割、实例分割等。
[2]从皮肤镜图像中分割皮肤病变对于提高黑色素瘤的定量分析至关重要。然而,由于皮损的巨大变化和不规则形状,这仍然是一项具有挑战性的任务。此外,皮损与周围组织之间模糊的皮损边界也可能增加不正确分割的可能性。由于传统卷积神经网络(CNN)在获取全局上下文信息方面的固有局限性,传统的基于CNN的方法通常无法获得令人满意的分割性能。在本文中,我们提出了一种基于经典编译码器结构的新的特征自适应变换器网络(FATNet),它集成了一个额外的Transformer分支,以有效地捕获长距离依赖和全局上下文信息。此外,我们还采用了一个存储效率高的解码器和一个特征自适应模块,通过激活有效通道和抑制不相关的背景噪声来增强相邻层特征之间的特征融合。我们在四个公共皮肤损伤分割数据集上进行了大量实验,以验证我们提出的方法的有效性,包括ISIC 2016、ISIC 2017、ISIC 2018和PH2数据集。消融研究证明了我们的功能自适应变压器和高效记忆策略的有效性。与最新方法的比较也验证了我们提出的FATNey在准确性和推理速度方面的优越性。
Part2
分享者:李旺
分享内容:
[1]Wang X, He J, Jin Z, et al. M2Lens: Visualizing and explaining multimodal models for sentiment analysis[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 28(1): 802-812.
论文简介:
[1]多模态情感分析旨在从多种交流渠道中识别人们的态度,如口头内容(即文本)、语音和面部表情。它已经成为自然语言处理中一个充满活力的重要研究课题。许多研究集中在对不同沟通渠道之间复杂的模式内和模式间的互动进行建模。然而,目前具有强大性能的多模态模型往往是基于深度学习的技术,并且像黑盒一样工作。目前还不清楚模型如何利用多模态信息进行情感预测。尽管最近在提高机器学习模型的可解释性的技术方面取得了进展,但它们往往针对单模态的场景(如图像、句子),而对多模态模型的解释研究很少。在本文中,我们提出了一个交互式视觉分析系统M2 Lens,用于可视化和解释情感分析的多模态模型。M2 Lens在全局、子集和局部水平上提供了关于模式内和模式间互动的解释。具体来说,它总结了三种典型的互动类型(即主导、补充和冲突)对模型预测的影响。此外,M2 Lens还识别了频繁的和有影响力的多模态特征,并支持从语言、声音和视觉模态多方位探索模型行为。通过两个案例研究和专家访谈,证明了我们的系统可以帮助用户深入了解情感分析的多模态模型。