近期视觉计算实验室多篇论文被高水平国际会议录用

 近日,国际计算机视觉与模式识别会议CVPR与国际声学、语音与信号处理会议ICASSP相继公布录用结果,视觉计算实验室(VCL 318)共有3篇论文被录用。这些成果聚焦当前视觉模型在落地场景时面临的“模态适应难”、“目标捕捉弱”两大痛点,提出了一套从基础模型迁移到精细化特征提取的综合性视觉计算方案,体现了实验室在医学图像分析与多模态视觉目标跟踪领域再次取得重要进展。

 在多模态融合与跨域自适应方面,实验室提出了一套从“医疗场景”到“开放环境”的体系。无论是医学影像中复杂的解剖结构,还是自动驾驶、安防监控中低照度、雨雪等极端天气,单一模态的数据往往难以提供可靠的视觉线索。针对医学图像天然存在的巨大模态差异,由2025级博士研究生卢玉杰作为第一作者提出、入选CVPR 2026的SegMoTE框架,首次将Token级别的混合专家系统引入医学分割领域。该机制摒弃了传统微调中对庞大参数和数据规模的依赖,模型能够根据输入的影像模态自动“点将”,动态激活最合适的专家Token,以极少的参数量跨越了通用视觉模型向医学场景迁移的鸿沟。

 无独有偶,在面对开放场景下可见光(RGB)与热红外(TIR)的双模态目标跟踪难题时,由2025级博士研究生刘宜松作为第一作者提出、入选CVPR 2026 Finding的MOSSTrack框架,也展现了异曲同工的融合智慧。与传统方法采用统一时空建模导致引入背景噪声不同,MOSSTrack将模态特定线索引入特征级别的时空上下文学习中。它既能像SegMoTE一样保留各模态的独特视觉特征,又通过创新的时空信息生成器(STIG)精准捕捉目标在动态环境中的剧烈变化,在四大极具挑战性的RGB-T跟踪基准测试中均达到了SOTA性能。

 在解决了多模态怎么融的问题后,实验室进一步攻克了微小目标怎么抓的精细化难题。 无论是医学多器官分割还是开放环境的目标追踪,目标的边界模糊与尺度剧变始终是制约精度的瓶颈。为此,SegMoTE不仅构建了包含15.4万个高质量掩码的MedSeg-HQ数据集,还设计了渐进式提示词元化机制,引导模型自主学习前景与背景的语义边界。而针对结肠息肉这类极易漏诊的微小病灶,由2025级硕士研究生杨阳作为第一作者提出、入选ICASSP 2026的MSPN(多阶段渐进网络),则将这种精细化推向了极致。该研究提出了一套定位-识别-精细化的结构化流程,并引入适应性加权损失函数(AW Loss),强制模型将注意力集中在最难区分的模糊边界和极小目标上,在多个公开基准数据集上全面超越了现有主流分割算法。

 这三项研究从宏观的模态自适应迁移,到微观的多尺度病灶精准分割,不仅提出了创新的网络架构,更为计算机视觉技术从实验室走向临床诊断、大规模筛查以及复杂户外设备部署提供了切实可行的技术路径。未来,VCL 318实验室将继续深耕三维医学影像分析与全模态通用跟踪器构建,持续推动视觉大模型向更高泛化性与更强实用性发展。