ACM MM 2025-Day1

2025年10月27日,多媒体领域的全球顶级学术盛会——第33届ACM国际多媒体会议(ACM MM 2025) 在爱尔兰都柏林的皇家都柏林会议中心正式拉开帷幕。作为中国计算机学会(CCF)认证的A类旗舰会议,本届会议以 "跨模态信息的整合和交换" 为主题,将在未来五天里,汇聚来自多个国家的顶尖学者与产业专家,共同探索多模态人工智能、生成式内容、多媒体内容理解等前沿方向。

大会欢迎仪式

在融合乔治亚时代古典优雅与爱尔兰现代活力的都柏林皇家会议中心(RDS),第33届ACM MM 2025的欢迎仪式于今日上午在充满学术与艺术气息的氛围中正式举行。这座被誉为爱尔兰学术交流圣殿的历史建筑,以其精致的柱廊与穹顶,迎接着全球多媒体研究者的智慧汇聚。参会学者们穿行于传统建筑与现代多媒体装置艺术交织的空间,在现场悠扬的爱尔兰民乐与实时数据可视化光影中,沉浸式体验着都柏林作为“欧洲硅谷”的独特基因。精心准备的茶歇与交流环节,为学者们提供了绝佳的互动平台,与会专家们手持咖啡与当地特色茶点,在轻松愉快的氛围中畅谈多模态大模型的技术前沿与AIGC应用的未来边界,思想的火花在凯尔特纹样与全息投影的辉映下持续迸发。这场融合了爱尔兰深厚文化底蕴与尖端多媒体科技的欢迎仪式,不仅展现了会议主办方的独特匠心,更为未来五天密集的前沿学术研讨奠定了充满灵感与创造力的基调。

参会合影

在10月27日于都柏林举行的首届微妙视觉计算研讨会(SVC 2025)上,会议主席Adam Czajka带来了一场引人入胜的开场报告。作为本次研讨会的核心内容,报告系统性地介绍了他们团队在无监督生理信号学习与实时自适应推理方面的突破性进展。Adam Czajka指出,传统远程生理测量方法严重依赖高质量的标注数据,且在真实场景中容易受光线、运动等因素干扰。随着演示视频的播放,现场响起阵阵惊叹。团队提出的SINC框架实现了两大创新:首先,它仅利用强先验信号与非对比学习,无需任何真实生理标签即可从普通视频中恢复出心率与呼吸节律;其次,该框架支持测试时实时自适应,仅凭几秒测试视频即可完成模型微调,这项能力让在座研究者深感震撼。报告人强调,“我们的工作证明,在许多微妙视觉任务中,真值标注并非必需。”在欺骗检测的应用展示环节,多模态融合结果引发了热烈讨论。屏幕显示“rPPG + 瞳孔 + 热成像”特征融合将等错误率降至0.3571,显著优于单一模态。主席进一步剖析了rPPG技术在活体检测、远程医疗、深度伪造防御等社会高影响领域的潜力,同时也坦诚分享了当前挑战——包括模型跨数据集泛化能力不足与对抗攻击的脆弱性。

在问答环节,多位学者就无监督学习的理论边界与实时部署展开提问。报告人透露,除了基础生理参数监测,该框架经扩展已成功应用于微表情、眼动等多类微弱信号的提取。这场报告不仅展示了微妙视觉计算的前沿突破,更为全场学者指明了新一代视觉系统的发展方向——从“看得见”走向“看得透”。离场时,不少与会者仍在热议如何将这一范式应用于各自的细分研究中。

Adam Czajka的报告

紧接SVC研讨会开幕报告后,实验室成员蒋林呈介绍了本次发表在ACM MM 会议的成果:Saliency-Aware Language Guided Network for High-Resolution Salient Object Detection。论文首次提出语言引导的视觉显著性检测框架SALNet,通过语言描述注入人类显著感知先验,突破传统仅依赖图像特征导致的误检与漏检瓶颈。

随着演示深入,蒋林呈重点解析了三大创新:首先是构建了首个面向高分辨率显著性检测的多模态数据集L-HRSOD,包含18,522对精准对齐的图像-文本数据;其次是提出多粒度显著性感知模块(MGSM),通过语言语义动态修复丢失的目标区域;最后是语言向量更新策略(LUS),利用深层视觉特征迭代优化语言空间中的目标定义。当展示在HRSOD、UHRSOD等四个基准数据集上的对比实验结果时,SALNet在Em与Fmax指标上显著超越现有最优方法,可视化结果中复杂场景下的误检消除效果引发全场关注。现场观众就语言引导的泛化能力引发了讨论。一位来自欧洲的研究者提问:“这项技术能否应用于伪装目标检测场景?”蒋林呈透露到团队正在探索语言引导机制在伪装目标、医学影像等多任务通用框架中的应用,这场报告不仅展现了语言-视觉协同建模的前沿突破,更为隐蔽目标检测领域开辟了新的技术路径。

实验室成员蒋林呈交流学术成果