ACM MM 2025-Day3

ACM MM 2025开幕式隆重举行,会议规模创新高,首设数据集赛道引关注
2025年10月29日上午8:45,第33届ACM国际多媒体会议在爱尔兰都柏林皇家会议中心正式拉开帷幕。本次开幕式由技术程序主席Luca Rossetto(都柏林城市大学)、Stevan Rudinac(阿姆斯特丹大学)等六位教授联合主持,现场汇聚了来自全球50个国家的2130名学者与产业专家,共同见证多媒体领域这一年度盛事的启航:

论文投稿量与学术质量双突破
本届会议共收到7106篇摘要注册,经过严格评审,最终录用1250篇全文论文,整体录用率约为23%。会议设置了110余个专题分会,覆盖内容生成、交互体验、生成式AI、系统架构及用户参与五大主题,其中“生成式AI”主题投稿量居首,凸显当前技术热点。为提升评审质量,会议首次实行“低审稿负荷”机制,规定每名评审最多评阅4篇论文,每篇论文由5名专家背对背评审。

创新举措与行业参与成亮点
ACM MM 2025推出多项革新:首次设立数据集赛道黑客马拉松,重启交互式数字艺术展,并全面取消海报环节,转为全员现场短报告与演示,以促进深度交流。会议获得华为、谷歌DeepMind、NEC、蚂蚁集团等20余家科技企业的深度参与,通过产业研讨会、专家对话与技术演示,搭建起产学研协同的创新桥梁。

古老传统与前沿科技的融合
恰逢爱尔兰传统节日“萨温节”,会议巧妙融合当地文化,在开幕式上分发面具与服饰,邀请学者在学术交流中体验爱尔兰“叙事与社群”的古老精神。技术程序主席特别强调:“我们站在多媒体技术变革的临界点,更需要回归人文本质,思考技术如何更好地服务人类叙事。”

会议期间将举办30场研讨会、60项挑战赛及20套定制化视频播放系统,支撑逾1300部学术视频的现场展示。这场在都柏林开启的学术盛宴,不仅以数据规模见证了领域的蓬勃发展,更以创新形式重塑了学术交流的边界。

大会开幕
ACM MM投稿统计表

北京交通大学团队提出分层提示树框架,突破持续类别发现技术瓶颈
在大会现场,北京交通大学与北京大学联合团队发表了题为《Tree of Prompts: Aligning Hierarchical Visual Prior for Continual Generalized Category Discovery》的前沿报告。面对智能系统在开放环境中持续遇到未知类别数据的关键挑战,研究团队指出当前主流方法存在"非结构化知识干扰" 问题——单一粒度提示难以区分视觉相似类别(如哈士奇与狼),导致模型混淆宏观概念与细粒度特征。为突破这一局限,团队创新性地提出分层提示树框架,通过解构Transformer不同层级的视觉表征:

  • centroid级提示,从高斯混合模型中学习类别原型
  • 上下文级提示 捕捉 patch token 的局部特征
  • 阶段级提示 整合 [CLS] token 的全局语义
    三层提示通过动态融合机制,构建起层次化的视觉先验知识体系。现场展示的特征可视化对比中,传统方法在连续学习阶段出现特征纠缠的区域,ToP模型仍保持清晰的类别边界。

在CIFAR-100、ImageNet-1K等标准数据集上的实验数据显示,ToP在"已知类别保持"与"新类别发现"两项关键指标上均达到最先进水平,尤其在10阶段连续学习任务中将新类别发现准确率提升4.8%。讲者展示了模型成功区分20种犬科动物的细粒度类别。报告结束后,会议主席特别邀请论文全体作者上台,开启为期30分钟的深度对话环节。与会学者就分层提示的计算效率、在医疗影像连续诊断中的应用前景展开热烈讨论,团队透露正在探索将该框架拓展至跨模态类别发现场景,为开放环境下的持续学习系统提供了新的技术范式。

来自北京交通大学的学者分享