近日,在IEEE国际多媒体学术会议(EEE International Conference on Multimedia& Expo,简称ICME)2025公布的录用结果中,视觉计算实验室程俊龙和刘翼逍论文被顺利接收。其中,刘翼逍作为第一作者实现了实验室本科生发表高水平学术论文的突破。两篇论文详细信息如下:
1. 医学图像中曲线状结构分割新方法
基础模型以其卓越的零样本泛化能力而闻名,并在各个领域引起了广泛关注。近期研究中,名为“任意分割模型”(SAM)的基础模型利用点和边界框等提示进行图像分割。然而,当应用于医学图像中的曲线结构(例如血管和神经)分割时,SAM及其衍生方法未能达到预期效果。这是因为现有的提示主要针对块状结构而设计,而这些结构与曲线结构具有显著不同的特性。为了应对这一挑战,研究团队提出了一个用于曲线结构分割(CSS)的基础模型—CurveSAM,如图1所示,由三个主要组件组成:图像编码器、提示编码器和掩码解码器;其中,提示编码器支持三种类型的提示:骨架、点和掩码。
具体而言,研究团队提出了一种创新的骨架提示策略,该策略专门针对曲线结构的特性而设计,旨在实现对任意曲线结构的用户友好分割。此外,该方法保留了点击交互的优势,允许用户进一步优化分割结果。利用精心构建的大规模CSS数据集(包含超过10.1万张图片和58.2万个掩膜),CurveSAM不仅超越了最先进的基础模型(例如SAM 和SAM-Med2D),而且分割性能也与专业模型相当甚至更胜一筹。重要的是,通过跨数据集验证和零样本测试,进一步证明了CurveSAM在实际应用中的巨大价值和潜力。

论文《CurveSAM: Skeleton Prompt for Curvilinear Structure Segmentation in Medical Images》,程俊龙博士为第一作者,由朱敏教授指导。
2. 多模态遥感图像变化检测新架构
遥感变化检测(RSCD)通常通过分析多时相影像来识别土地覆盖或地表状况的变化。目前,大多数基于深度学习的方法主要侧重于学习单模态视觉信息,而忽略了文本等多模态数据所提供的丰富语义信息。为了突破这一局限性,研究团队提出了一种新颖的语言引导变化检测模型(LG-CD),架构如图2所示。该架构接受两幅在不同时间点拍摄的遥感图像及其对应的文本提示作为输入。适配器层用于适配变化检测任务,TFAM 将文本特征与视觉特征融合,V-SFD深度融合视觉和语义信息,以生成高精度的变化检测掩码。
LG-CD模型利用自然语言提示将网络的注意力引导至感兴趣的区域,显著提高了变化检测的准确性和鲁棒性。具体而言,LG-CD使用视觉基础模型(SAM2)作为特征提取器,从高分辨率到低分辨率,在双时相遥感影像中捕获多尺度金字塔特征。随后,利用多层适配器对模型进行微调以适应下游任务,从而确保其在遥感变化检测中的有效性。此外,设计了一个文本融合注意力模块(TFAM)来对齐视觉和文本信息,使模型能够利用文本提示聚焦于目标变化区域。最后,实现了视觉-语义融合解码器(V-SFD),它通过交叉注意力机制深度整合视觉和语义信息,从而生成高精度的变化检测掩码。
LEVIR-CD、WHU-CD 和 SYSU-CD三个数据集上的实验表明,LG-CD的性能始终优于最先进的变化检测方法。此外,该模型为利用多模态信息实现广义变化检测提供了新的见解。

论文《LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation》由本科实习生刘翼逍为第一作者论文、朱敏教授指导。该论文被ICME Workshop录用,Track Name:LMM-PSU - Large Multimodal Models for Pixel-level Scene Understanding。
论文信息:
[1] Cheng J, et al. CurveSAM: Skeleton Prompt for Curvilinear Structure Segmentation in Medical Images, IEEE International Conference on Multimedia& Expo (ICME), 2025.
[2] Liu Y, et al. LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation, IEEE International Conference on Multimedia and Expo Workshops (ICMEW), 2025.