2025年10月28日,第33届ACM国际多媒体会议(ACM MM 2025) 进入了第二天的议程,今天大会的分享依然围绕workshop展开,晚上有会议欢迎晚宴。
来自厦门大学的学者分享了多模态大模型的有关研究,随着多模态大模型的快速发展:近年来,融合视觉与语言理解的多模态大模型在多个任务上表现出色,如图像描述、视觉问答等。然而这带来了多图像输入带来的新挑战:随着任务复杂化,模型需要同时处理多张图像并生成一致、准确的回答,但现有模型在多图像理解中容易出现“幻觉”(hallucination)现象,即生成与图像内容不符或虚构的信息。幻觉问题严重影响模型的可信度与实用性,尤其在医疗、自动驾驶、安全监控等高风险领域。报告人指出,现在的多模态模型在看单张图时表现还不错,但一旦让它们理解一组图片,就很容易胡说八道。比如,可能会把不同图片里的东西硬扯上关系,或者凭空编造出一些图中根本不存在的细节。他们构建的这个MillBench,就像一个专业的“测谎仪”,能系统性地检测出模型在这些复杂情境下的各种幻觉类型。
更关键的是,他们不只是提出了问题,还尝试了一些解决方法。他们提到通过改进模型的注意力机制,让它在看多张图时能更好地进行“交叉参考”,而不是孤立地看每一张图;同时在训练中特意加入了一些容易让模型出错的例子,来训练它避免掉入这些幻觉陷阱。实验结果显示,他们的方法在MillBench这个基准上显著降低了模型的错误率。

演讲者Petar Mladenov探讨了一个问题:人类和GPT4.1是如何察觉到那些场景中‘本该存在但却缺失’的东西的?这不只是简单的物体识别,而是更高层次的‘语义推理’。演讲者举了几个例子:比如一张照片里,一个洗手台明晃晃地摆在那,但就是没有水龙头,让人觉得很不对劲。还有一个例子是,一根被拉紧的狗绳,但牵绳的人和狗都不在画面里。于是他们把这些‘不可见’的挑战分成了三大类:
- 物理对象缺失(比如那个水龙头)。
- 社交情境缺失(比如狗绳暗示了有个人)。
- 时序事件缺失(比如预测一个电影中‘本应发生但未发生’的吻)。
他们让300多名人类和GPT-4.1模型去描述这些场景。研究者本来以为人类会在所有方面都碾压AI,但事实并非如此。在物理缺失方面,人类确实表现更好(图表里的蓝色柱体)。人类对物理世界的常识直觉还是很强的。但在‘社交情境缺失’的推断上,GPT-4.1(橙色柱体)的表现竟然显著超越了人类。演讲者分析说,这可能是因为AI在进行结构化的社交逻辑分析时,比人类更系统、更一致。至于最难的‘时序事件’(预测未发生的事),两者各有千秋,AI展现了很强的潜力,但人类在更深层的常识上还是有优势。

会场晚宴由晚上19点开始,参会学者们可以免费获取各种酒类和饮料畅谈相关研究。此外,会议邀请了乐器演奏。ACM MM2025第二天的学术交流,不仅展现了多媒体领域的最新研究成果,更促进了不同团队间的思想碰撞。

