2022年秋季学期视觉计算实验室第六次论文研读预告

时间:2022年11月3日(本周四) 09: 30  

地点:望江校区基础教学楼B座318实验室  

成员:高承睿、杨丹、欧阳成州

Part1  

分享者:高承睿  

分享内容:  

[1] Guo M H, Lu C Z, Hou Q, et al. SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation[J]. arXiv preprint arXiv:2209.08575, 2022.

[2] Wang Z, Min X, Shi F, et al. SMESwin Unet: Merging CNN and Transformer for Medical Image Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2022: 517-526.

论文简介:  

[1] 我们提出了SegNeXt,一种用于语义分段的简单卷积网络架构。最近的基于Transformer的模型由于在编码空间信息时的自我注意效率而主导了语义分割领域。在本文中,我们表明卷积注意比Transformer中的自我注意机制更有效地编码上下文信息。通过重新检测成功的分割模型所具有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用普通卷积运算的新型卷积注意力网络。SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCOStuff、Pascal VOC、PascalContext和iSAID)上显著提高了以往最先进方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就获得了90.6%的mIoU。平均而言,SegNeXt在ADE20K数据集上实现了约2.0%的IoU改进,与现有技术相比,具有相同或更少的计算。

图1 Illustration of the proposed MSCA and MSCAN

[2] 视觉Transformer是自去年以来医学图像分割的最受欢迎的范式,在定量指标上超过了传统的CNN。ViT的显著优势是利用注意力层来建模tokens之间的全局关系。然而,ViTs增加的表达能力伴随着相应的缺点:缺少CNN的归纳偏见(定位性)、变换不变性和视觉信息的层次结构。因此,训练有素的ViTs需要比CNNs更多的数据。由于医学成像领域的高质量数据总是有限的,我们提出SMESwin UNet。首先,基于Channel-wise Cross fusion Transformer(CCT),我们通过设计CNN和ViTs的复合结构(命名为MCCT)来融合多尺度语义特征和注意力图。其次,我们通过将像素级特征划分为区域级来引入超像素,以避免图像中无意义部分的干扰。最后,我们使用External Attention来考虑所有数据样本之间的相关性,这可以进一步减少小数据集的限制。所提出的基于超像素和MCCT的Swin Unet (SMESwin Unet) 在三个医学图像分割数据集(nucleus, cells, and glands)上比CNN和其他基于Transformer的架构实现了更好的性能。

图2 The main architecture of SMESwin Unet which optimizes skip connection for training

Part2

分享者:杨丹

分享内容

[1] Shenyu Xu, Chris Bryan, Jianping Kelvin Li, Jian Zhao and Kwan-Liu Ma. Chart Constellations: Effective Chart Summarization for Collaborative and Multi-User Analyses. Computer Graphics Forum. 37(3): 75-86 (2018).

[2] Y. Wang et al., "Towards Natural Language-Based Visualization Authoring," in IEEE Transactions on Visualization and Computer Graphics, 2022, doi: 10.1109/TVCG.2022.3209357.  

论文简介:  

[1] 数据可视分析过程中面向的许多数据问题是复杂的,需要多个分析师共同协作完成,本文为了实现对已经创建的可视化图表进行灵活探索性的视觉分析,通过有效地总结已创建的先前分析师的图表,提出了Constellations系统以支持元视觉分析。 Constellations是一个以交互方式支持单个分析师对其他协作分析师创建的数据故事进行审查和分析的系统,它提供了投影,聚类,过滤和连接等多种方式对来自所有用户的结果投影到一个视图中。此外,Constellations还提供了识别未探索数据子空间的方法,促进了对新区域的有针对性的探索。用户研究结果表明,Constellations系统比传统的数据笔记本界面(Kaggle Kernels)更有效,可以从一组可视化结果中获得高水平的洞察力,并了解探索过程。

图3 Constellations系统页面示意图

[2] 可视化创作的一个关键挑战是熟悉创作工具的复杂用户界面的过程。自然语言界面(NLI)由于其可学习性和可用性而带来了巨大的好处。然而,支持创作工具的NLI需要自然语言处理方面的专业知识,而现有的NLI大多是为面向可视分析工作流设计。本文探索了一种基于自然语言的可视化创作管道,它支持对可视化构建命令的理解,通过引入用户可视化编辑意图的结构化表示,提出一种面向创作的NLI管道,实现了一个基于深度学习可重用的的NL解释器,将NL话语翻译成编辑动作。该方法可以跨创作工具扩展,创作工具只需要将编辑操作映射到工具特定的操作中。为了说明NL解释器的用法,文章实现了一个Excel图表编辑器和一个概念验证创作工具Vis Talk,使用Vis Talk进行了一项用户研究,结果表明该方法能够有效实现基于自然语言的可视化创作,减轻了用户熟悉特定概念模型的需求。

图4 Pipeline of authoring-oriented NLI

Part3

分享者:欧阳成州

分享内容

[1] Oh M, Park S, Kim S, Chae H. Machine learning-based analysis of multi-omics data on the cloud for investigating gene regulations. Brief Bioinform. 2021 Jan 18;22(1):66-76. doi: 10.1093/bib/bbaa032.

论文简介:  

[1] 基因表达被可量化的遗传分子微妙地调节,如与其他基因的相互作用,甲基化,突变,转录因子和组蛋白修饰。综合分析多组学数据可以帮助科学家了解病情或患者特异性基因调控机制。然而,多组学数据的分析具有挑战性,因为它不仅需要分析多个组学数据集,而且需要利用先进的机器学习方法挖掘不同遗传分子之间的复杂关系。此外,多组学数据的分析需要相当大的计算基础设施,对于分析结果的解释也需要许多科学家之间的合作,通常需要从不同的角度重新分析。当把机器学习工具部署到云上时,前面提到的许多技术问题和合作问题都可以很好地处理。这篇综述调查了可用于基因调控研究的机器学习方法,并根据基因调控子网络发现、疾病亚型分析、生存分析、临床预测和可视化五个不同的目标对它们进行了分类,解释了他们对云在多组学数据分析应用的理解,然后对两个最先进的云系统Galaxy和BioVLAB进行了阐述。最后,这篇文献还讨论了当云用于基因调控研究的多组学数据分析时可能出现的重要问题。

图5 五类组学异构数据