近日,多媒体领域国际顶级会议IEEE ICME 2026公布了论文录用结果。视觉计算实验室共有3篇论文被正式录用。这些研究成果延续了实验室在“基础模型迁移”与“精细化特征提取”领域的深厚积累,分别针对医学影像的持续学习、文本驱动的交互式分割以及遥感影像的自适应感知提出了创新的解决方案,标志着实验室在推动视觉大模型向临床医疗与自然灾害监测等垂直领域落地迈出了坚实一步。
1. 腹部多器官分割新范式
在医学人工智能的实际部署中,模型常面临新旧任务更迭带来的灾难性遗忘挑战。由实验室提出的PriCL-Seg框架针对这一痛点,构建了一套基于视觉语言模型(VLM)驱动的无存储持续学习体系。该工作设计了一种创新的伪标签引导知识回放机制,巧妙地融合了历史模型预测、新类标注以及 Segment Anything Model (SAM) 提供的结构先验。这种三位一体的监督信号在不存储任何历史病例数据的前提下,有效缓解了跨模态语义漂移。为了应对文本提示可能带来的噪声,研究进一步引入了置信度引导过滤模块(CFM),动态抑制低置信度的误导性预测,确保了模型在多轮任务增量后的鲁棒性。

论文《PriCL-Seg: Prior-Guided Continual Learning for Abdominal Organ Segmentation》,2025级硕士朱陶涛为第一作者,由朱敏教授和程俊龙博士指导。
2. 交互式医疗影像分割新方案
针对腹部 CT 影像中器官边界模糊、对比度低导致的分割难题,实验室推出了TIM-Seg框架。该研究尝试将深奥的解剖学文本知识转化为模型可理解的视觉导航。不同于将文本作为被动补充的传统方法,TIM-Seg 提出了双阶段影像-文本融合机制。通过文本-图像融合模块(TIFM)实现多尺度跨模态对齐,并利用文本感知模块(TAM)将PubMedBERT提取的专业领域知识注入视觉特征重建过程。研究引入了可学习的器官特异性类词元(Class Tokens),在嵌入空间中显式建模不同器官的形态差异,极大地改善了形态相似器官之间的区分度。

论文《TIM-Seg: Text-Driven Interactive Model for Multi-Organ Segmentation in Abdominal CT》,2023级硕士阳斯敏为第一作者,由朱敏教授和程俊龙博士指导。
3. 遥感影像滑坡监测新结构
在环境安全领域,实验室将视角转向了遥感影像中的滑坡灾害自动分割。针对滑坡目标尺度多变、边界与周围地物(如裸土)极易混淆的问题,提出了ABC-LandSeg框架。该框架通过在冻结的DINOv3基础模型中注入轻量化重校准模块,实现了对地理空间特征的高效提取。研究设计了自适应多层特征选择模块(AMS),能够根据输入图像动态调整不同Transformer层的权重,以应对滑坡体从数米到数千米剧烈波动的尺度挑战。此外,针对边界模糊问题,引入了边界不确定性修正头(BUC),利用不确定性引导模型对边缘区域进行精细化微调。

论文《ABC-LandSeg: A landslide segmentation framework based on adaptive feature selection and boundary correction》,2024级硕士樊禧为第一作者,由朱敏教授指导。
这三项工作共同构成了视觉计算实验室在视觉模型落地应用上的实践:通过将领域专家知识与基础模型底座深度锚定,实现了从“通用感知”向“垂直行业精细化作业”的跨越。无论是守护生命健康的精准医疗,还是保障生态安全的自然灾害监测,实验室正持续推动AI技术在真实复杂环境中的可靠部署。