2025年春季学期视觉计算实验室第十次论文研读预告

时间:2025年05月17日(周六) 09: 00

地点:望江校区基础教学楼B座318实验室

分享者:管弦、阳斯敏

Part 1

分享者:管弦

[1] Yue, J., Li, H., Sheng, J., Guo, Y., Zhang, X., Zhou, C., ... & Guo, L. (2025, April). Graph Wave Networks. In Proceedings of the ACM on Web Conference 2025 (pp. 1365-1379).

[2] Wang, X., Jiang, J., Yan, X., & Huang, Q. (2025, April). TESA: A Trajectory and Semantic-aware Dynamic Heterogeneous Graph Neural Network. In Proceedings of the ACM on Web Conference 2025 (pp. 1305-1315).

论文简介:

[1] 动态建模已被引入作为图神经网络(GNN)消息传递(MP)的新范式。现有方法将节点间的消息传递视为热扩散过程,并利用热方程来建模嵌入空间中节点的时间演化。然而,热方程难以刻画图信号处理中图信号的波动特性。此外,热方程本质上是涉及时间一阶偏导数的偏微分方程(PDE),其数值解通常稳定性较低,导致模型训练效率低下。本文旨在消息传递中刻画更多波动细节,因为图信号本质上是波动信号,可视为特征向量形式的一系列波的叠加。作者将消息传递视为波动传播过程,以捕捉空间中波信号的时间演化。基于物理学中的波动方程,创新性地提出了图波动方程,以利用图上的波动传播。具体而言,作者证明了图波动方程可与传统谱GNN建立联系,从而基于不同拉普拉斯矩阵设计图波动网络(GWN),并提升谱GNN的性能。此外,图波动方程是涉及时间二阶偏导数的偏微分方程,其在图上的稳定性强于仅涉及时间一阶偏导数的热方程。作者还从理论上证明了图波动方程导出的数值解具有恒稳性,能够在保证性能的同时显著提升模型效率。大量实验表明,GWN在基准数据集上实现了最先进且高效的性能,并在解决过平滑和异配性等挑战性图问题中表现出色。

图波动方程图解

[2] 动态图神经网络(DGNNs)旨在捕捉图节点交互的动态演化过程。然而现有DGNN主要针对同构图设计,忽略了节点与边类型的丰富异质性——这种特性在现实图数据中普遍存在,且对复杂动态交互建模至关重要。本研究提出轨迹与语义感知的动态异构图神经网络(TeSa),通过整合基于轨迹的演化建模和语义感知聚合机制,共同捕捉连续时间动态异构图蕴含的演化动力学特征与异质语义信息。具体而言,基于轨迹的演化将每个节点接收的交互序列(称为节点轨迹)视为时序数据,采用时间点过程学习交互中的动态演化规律;语义感知聚合机制在节点邻域信息聚合时区分边类型——先对同类型边进行消息聚合(即语义内聚合),再处理不同类型边间的信息融合(即语义间融合),从而全面建模异质语义。在传导式与归纳式任务上将TeSa与7种前沿DGNN模型对比,实验表明TeSa分别以平均5.11%和5.74%的准确率优势超越最佳基线模型。

TeSa模型架构

Part 2

分享者:阳斯敏

[1] Bui P N, Le D T, Choo H. Visual-Textual Matching Attention for Lesion Segmentation in Chest Images[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2024: 702-711.

[2] Yang J, Marcus D S, Sotiras A. Dynamic U-Net: adaptively calibrate features for abdominal multiorgan segmentation[C]//Medical Imaging 2025: Computer-Aided Diagnosis. SPIE, 2025, 13407: 326-334.

论文简介:

[1] 胸部图像中的病变分割对于肺部疾病的 AI 辅助诊断系统至关重要。结合图像和文本描述的多模态方法在医学图像分割方面取得了显著成效。然而,现有的方法主要侧重于利用文本信息改进解码器,而编码器则未得到充分探素。本文引入了一种多模态输入 U-Net 模型,即MMI-UNet,该模型利用视觉-文本匹配 (VTM) 特征对胸部X光图像中的感染区域进行分割。这些 VTM 特征包含与文本描述相关的视觉特征,通过在编码器中集成的新型图像-文本匹配 (ITM) 模块中的自注意力和交叉注意力机制组合生成。在 QaTa-Cov19 和 MosMedData+ 数据集上进行的广泛实验评估表明,MMI-UNet 的性能优于单模态和先前的多模态方法。此外,即使使用 15% 的训练数据,本文的方法也优于最佳的单模态方法。这些发现突显了视觉语言模型的可解释性,推动了肺部疾病辅助诊断的可解释性,并降低了医学领域分割任务的标注成本。

MMI-UNet模型架构

[2] U-Net已被广泛用于腹部器官分割,并取得了良好的性能。然而,当它用于多器官分割时,首先,由于采用了标淮卷积,它可能在利用全局长程上下文信息方面存在局限性。其次,在编码路径中使用空同下采样(例如最大池化或步长卷积)可能会导致可变形或有区分性的细节丢失。最后,从较高层上采样的特征与通过跳跃连接保留的特征进行拼接,然而,重复的下采样和上采样操作会导致它们之间的错位,从而降低分割性能。为了解诀这些局限性,本文分别提出了动态校淮卷积 (DCC)、动态校淮下采样 (DCD)和动态校准上采样(DCU)模块。DCC 模块能够利用空间和通道特征之间的全局相互依赖关系来白适应地校准这些特征。DCD 模块使网络能够在下采样过程中自适应地保留可变形或有区分性的特征。DCU 模块能够动态对齐和校淮上采样特征,以消除在拼接前出现的错位。本文将所提出的模块集成到标准U-Net中,从而形成了一种新的架构,称为动态 U-Net。这种架构设计使 U-Net 能够针对不同器官动态调整特征。我们在两个腹部多器官分割基准测试中对动态 U-Net 进行了评估。与标准 U-Net 相比,动态 U-Net 在分割精度上实现了统计学意义上的提升。

动态UNet架构