
ACM MM 2025-Day4
2025年10月30日,ACM MM 2025 进入了第四天的议程,包括主旨议程、子研讨会和正式晚宴。
来自新加坡国立大学的Tat-Seng Chua教授分享了主旨议程:多模态基础模型在多媒体研究的下一进程,他认为人工智能作为一个概念自20世纪50年代起就存在了。 随着机器学习技术的最近进步以及大数据和大型计算资源的可用性,人工智能的爆炸性增长前景已经形成。 特别是,多模态基础模型的出现,这些模型在内容理解、生成和推理方面提供了显著的能力,为多模态研究和应用开辟了机会。 演讲首先回顾了多模态基础模型的趋势和发展。 然后概述了多语言和多模态对齐的进展,并讨论了语言或媒体无关信号的出现,这些信号似乎代表了人类语言中常用的抽象概念。 这些信号已被证明对所得模型的准确性和安全性都有积极影响。 为了进一步提高模型的性能,当前大多数方法采用具有各种奖励函数的强化学习,以实现更好的内容生成和信任控制。 为了促进有效的强化学习,质量评估至关重要,但这一点在很大程度上被忽视了。 本次演讲进一步介绍了质量评估的最新方法及其在视频和三维媒体生成中的作用。 由于多模态基础模型的研究仍处于早期阶段,本次演讲以未来研究的方向作为结束。

实验室2022级博士生兰天中作为session chair主持了《多媒体应用:五》的研讨会,该议程包括了10篇有关人工智能在多媒体应用的论文分享。

北京科技大学团队报告基于潜在空间一致性的稀疏视图CT重建新方法(CLS-DM),报告指出,从有限的2D X射线图像(即“稀疏视图”)中重建高质量的3D CT图像,是当前医疗诊断领域面临的关键挑战。X射线图像本身具有低对比度、高噪声和复杂解剖结构等特点,这为精确的3D重建带来了极大困难。为解决这一难题,研究团队提出了一种名为CLS-DM的新型深度学习模型。该模型的核心思想是实现“潜在空间对齐”。据介绍,该方法创新性地结合了对比学习与扩散模型的优势,通过将低质量、多噪声的X射线潜在空间与高分辨率、信息丰富的CT潜在空间进行对齐,从而学习到一个统一的、高解析度的“共享医疗潜在空间”。在“结果与讨论”环节中,报告展示了CLS-DM模型与多种现有技术(如X2CT-CNN、X2CT-GAN、LDM等)的重建效果对比。从轴向(Axial)、矢状(Sagittal)和冠状(Coronal)三个维度的图像对比来看,CLS-DM模型生成的3D图像在解剖结构细节上更清晰、伪影更少,其重建结果在视觉上更接近“地面真实”(Ground Truth)的CT图像。此项研究为稀疏视图CT重建技术提供了新的解决思路,展示了在跨模态医学图像处理中实现潜在空间一致性的潜力。该技术的应用有望在未来帮助医疗机构在降低患者辐射剂量的同时,获取更精确的3D诊断依据。

会议于当天晚上7点半举行了会议正式晚宴,提供了多种酒水饮料方便学术交流,并邀请了摇滚乐队活跃气氛。在场师生无不欢歌笑语。
