
ACM MM 2025-Day5
2025年10月31日,ACM MM 2025 进入了尾声,今天的主旨议题是:感知相机与等分法: 使用新硬件的挑战与益处。此外,剩余的子议题在今天下午全部结束。
Steve Hodges教授分享了感知相机的硬件应用及挑战。在一个充满生成模型和大规模数据的世界里,可穿戴相机——一种能够自动捕捉静止图像并为佩戴者创建视觉日记的可穿戴相机,用于重新审视个人多媒体的亲密性质和独特价值。 尽管自感官相机概念诞生以来的几十年里,市场上出现了多种可穿戴相机产品,但这些原型的独特特性和解锁的好处至今仍然难以捉摸。 在探讨了为什么从像感官相机这样的硬件原型过渡到完全成熟的产品如此具有挑战性之后,此次演讲介绍原型设计到生产过程中的一个新步骤,称为等分法。 异构化揭示了从有前景的原型向可行的小批量生产扩展所需的关键但常被忽视的步骤。 演讲最后呼吁研究界帮助完善同型化的概念和过程。

在今日的多模态融合子议程中,来自根特大学的Quanqi Du博士分享了多模态情感分析新突破,该报告题为《LDW:用于多模态情感分析的标签差异加权》,报告指出,多模态情感分析(结合文本、音频和视觉信息)的核心挑战在于其“感知性”(perceptual nature)。报告引用信息整合理论(Information Integration Theory)解释,人类在判断他人情绪时,并不会平等对待所有信息模态,而是会根据每个“线索”(如语言、声调、表情)的感知可靠性,进行“加权平均”。为模拟这一复杂的人类认知过程,该团队提出了标签差异加权模型。报告通过实例说明,当一个人的文本(如“first”)偏向消极,但其音频(声调轻松)和视觉(面带微笑)均偏向积极时,LDW模型能像人一样,识别出积极信号的“权重”更高,从而得出整体情绪为积极的准确判断。在实验结果与讨论环节,报告展示了LDW模型与2018年至2022年间多种主流模型的性能对比。数据显示,LDW模型在MAE(平均绝对误差)、Corr(相关性)、Acc(准确率)和F1分数等多项关键指标上均超越了既有方法,达到了“SOTA”(State-of-the-Art,即当前最佳)水平。此项研究为开发更懂“察言观色”的人工智能系统提供了新的技术路径。

实验室2022级博士生兰天中于今日的多媒体应用7的子议题汇报论文《LooBox: Loose-box-supervised 3D Tumor Segmentation with Self-correcting Bidirectional Learning》,报告指出,在AI医疗影像诊断中,精确的“像素级”标注成本高昂,而“边界框”(bounding box)标注虽相对高效,但在临床实践中往往存在“松散”(loose)问题。如幻灯片所示,医生为节省时间所画的松散标注框(红框)与理想的精确标注框(绿框)之间存在巨大差异,这些“噪声”和“不可预测性”为AI模型的训练带来了极大挑战。为解决这一实际应用难题,团队提出了“LooBox”模型。该模型的核心是一种“自校正双向学习”(Self-correcting and bidirectional rectification, SNC)机制。该机制允许模型在仅有“松散框”监督的情况下,通过分析图像的梯度图(Gradient Map)、熵(Entropy)等信息,对标注框的“定位”(localization)和“尺寸”(size)进行“自校正”和“双向纠偏”。这一过程使模型能逐步从充满噪声的“松散”标注中,学习到生物信号的真实边界,从而实现高精度的3D肿瘤分割。此项研究为如何有效利用临床实践中大量存在的“不完美”标注数据、开发更具标签效率的AI医疗模型提供了新的解决方案。

为期5天的ACM MM大会于今日圆满结束,明年的MM大会将在巴西的里约热内卢举办,期待下一次学术盛会的再次相聚!