ACM MM 2025-Day2
2025年10月28日,第33届ACM国际多媒体会议(ACM MM 2025) 进入了第二天的议程,今天大会的分享依然围绕workshop展开,晚上有会议欢迎晚宴。 来自厦门大学的学者分享了多模态大模型的有关研究,随着多模态大模型的快速发展:近年来,融合视觉与语言理解的多模态大模型在多个任务上表现出色,如图像描述、视觉问答等。然而这带来了多图像输入带来的新挑战:随着任务复杂化,模型需要同时处理多张图像并生成一致、准确的回答,但现有模型在多图像理解中容易出现“幻觉”(hallucination)现象,即生成与图像内容不符或虚构的信息。幻觉问题严重影响模型的可信度与实用性,尤其在医疗、自动驾驶、 »