ICME-Day1新闻稿

2025年7月30日,IEEE国际多媒体学术会议(ICME 2025)今日在法国卢瓦尔河畔隆重启幕,这座以机械巨象闻名的创意之都,今日化身为全球多媒体研究者的学术圣地。作为中国计算机学会(CCF)认证的B类旗舰会议,ICME 2025汇聚了来自多个国家的顶尖学者,将在未来四天围绕"智能多媒体:感知与创造的边界"主题,展开深度学术对话。

大会欢迎仪式

在法国南特极具蒸汽朋克艺术特色的机械城(Les Machines de l'Île),ICME 2025的欢迎仪式在18米高的机械巨象的注视下隆重举行,这座融合工业革命精神与未来科技美学的奇幻地标为来自全球50余国的多媒体研究者打造了一场别开生面的学术盛宴。参会学者们穿梭于精妙绝伦的齿轮森林与机械长廊之间,在蒸汽缭绕的奇幻氛围中亲身体验南特独特的艺术基因,而精心准备的丰盛酒宴更为学者们提供了绝佳的学术交流平台,与会专家们手持香槟,在机械装置的运转声中畅谈多媒体技术的最新发展,从生成式AI的突破到跨媒体智能的演进,思想的火花在齿轮与美酒的碰撞中不断迸发,这场融合科技与艺术的欢迎仪式不仅展现了会议主办方的独特创意,更为未来几天的学术研讨奠定了充满活力的基调。

欢迎仪式
参会合影

在7月1日举行的LMM-PSU 2025研讨会上,MBZUAI的Fahad S. Khan教授带来了一场令人振奋的主题报告。作为开场演讲,Khan教授深入浅出地介绍了他们团队突破性的研究成果——Pixel Grounding Large Multimodal Models (GLaMM)。他指出,传统的大型多模态模型(LMMs)虽然能够结合视觉和语言信息,但存在明显的局限性:要么只能对整张图片进行笼统描述,要么每次只能处理单一物体类别,而且往往需要人工指定区域。随着Khan教授展示的演示视频,现场观众发出阵阵赞叹。GLaMM模型实现了两大突破:首先,它能够自动生成与自然语言描述精确对应的像素级分割掩码;其次,它支持文本和视觉提示的双重交互,用户既可以用语言描述,也可以通过圈选感兴趣区域来获得精准响应。为了验证这一创新成果,我们面临一个重大挑战——缺乏合适的评估基准,Khan教授解释道。研究团队为此开发了自动化标注流程,构建了包含750万独特概念、8.1亿个标注区域的GranD数据集,这个规模让在场的研究人员都感到震撼。

在问答环节,多位与会学者就模型细节提问。Khan教授透露,除了视觉根基对话生成(GCG)这一核心任务外,GLaMM在指代表达分割、图像描述生成等多个下游任务中都展现出卓越性能。这场报告不仅展示了GLaMM的技术创新,更让我们看到了多模态模型发展的新方向——实现更自然、更精准的人机交互。离场时,听到不少同行都在讨论如何将这一成果应用到自己的研究中。

Fahad S. Khan报告

紧接Fahad S. Khan报告后,实验室成员刘翼逍介绍了本次发表在ICME会议的成果:LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation。

遥感变化检测(RSCD)通常通过分析多时相影像来识别土地覆盖或地表状况的变化。目前,大多数基于深度学习的方法主要侧重于学习单模态视觉信息,而忽略了文本等多模态数据所提供的丰富语义信息。为了突破这一局限性,研究团队提出了一种新颖的语言引导变化检测模型(LG-CD)。

随着演示的深入,刘翼逍重点讲解了三个创新点:首先是采用SAM2作为特征提取器,他特意放大了多尺度特征金字塔的示意图;其次是独创的文本融合注意力模块(TFAM);最后是视觉-语义融合解码器(V-SFD)的交叉注意力机制。我们在LEVIR-CD、WHU-CD和SYSU-CD三个权威数据集上都进行了验证,刘翼逍调出实验结果对比图,指标曲线明显优于基线模型的效果引发了现场讨论。一位来自欧洲的学者立即举手提问关于跨数据集泛化的问题,刘翼逍从容应答,并透露团队正在开发更通用的多模态变化检测框架。这场报告不仅展示了语言引导在遥感检测中的巨大潜力,更让我们看到了多模态技术在实际应用中的广阔前景。

实验室实习生刘翼逍交流学术成果