Lincheng Jiang

4 posts

ACM MM 2025-Day5

2025年10月31日,ACM MM 2025 进入了尾声,今天的主旨议题是:感知相机与等分法: 使用新硬件的挑战与益处。此外,剩余的子议题在今天下午全部结束。 Steve Hodges教授分享了感知相机的硬件应用及挑战。在一个充满生成模型和大规模数据的世界里,可穿戴相机——一种能够自动捕捉静止图像并为佩戴者创建视觉日记的可穿戴相机,用于重新审视个人多媒体的亲密性质和独特价值。 尽管自感官相机概念诞生以来的几十年里,市场上出现了多种可穿戴相机产品,但这些原型的独特特性和解锁的好处至今仍然难以捉摸。 在探讨了为什么从像感官相机这样的硬件原型过渡到完全成熟的产品如此具有挑战性之后,此次演讲介绍原型设计到生产过程中的一个新步骤,称为等分法。 异构化揭示了从有前景的原型向可行的小批量生产扩展所需的关键但常被忽视的步骤。 演讲最后呼吁研究界帮助完善同型化的概念和过程。 在今日的多模态融合子议程中,来自根特大学的Quanqi »

ACM MM 2025-Day4

2025年10月30日,ACM MM 2025 进入了第四天的议程,包括主旨议程、子研讨会和正式晚宴。 来自新加坡国立大学的Tat-Seng Chua教授分享了主旨议程:多模态基础模型在多媒体研究的下一进程,他认为人工智能作为一个概念自20世纪50年代起就存在了。 随着机器学习技术的最近进步以及大数据和大型计算资源的可用性,人工智能的爆炸性增长前景已经形成。 特别是,多模态基础模型的出现,这些模型在内容理解、生成和推理方面提供了显著的能力,为多模态研究和应用开辟了机会。 演讲首先回顾了多模态基础模型的趋势和发展。 然后概述了多语言和多模态对齐的进展,并讨论了语言或媒体无关信号的出现,这些信号似乎代表了人类语言中常用的抽象概念。 这些信号已被证明对所得模型的准确性和安全性都有积极影响。 为了进一步提高模型的性能,当前大多数方法采用具有各种奖励函数的强化学习,以实现更好的内容生成和信任控制。 »

ACM MM 2025-Day3

ACM MM 2025开幕式隆重举行,会议规模创新高,首设数据集赛道引关注 2025年10月29日上午8:45,第33届ACM国际多媒体会议在爱尔兰都柏林皇家会议中心正式拉开帷幕。本次开幕式由技术程序主席Luca Rossetto(都柏林城市大学)、Stevan Rudinac(阿姆斯特丹大学)等六位教授联合主持,现场汇聚了来自全球50个国家的2130名学者与产业专家,共同见证多媒体领域这一年度盛事的启航: 论文投稿量与学术质量双突破 本届会议共收到7106篇摘要注册,经过严格评审,最终录用1250篇全文论文,整体录用率约为23%。会议设置了110余个专题分会,覆盖内容生成、交互体验、生成式AI、 »

ACM MM 2025-Day2

2025年10月28日,第33届ACM国际多媒体会议(ACM MM 2025) 进入了第二天的议程,今天大会的分享依然围绕workshop展开,晚上有会议欢迎晚宴。 来自厦门大学的学者分享了多模态大模型的有关研究,随着多模态大模型的快速发展:近年来,融合视觉与语言理解的多模态大模型在多个任务上表现出色,如图像描述、视觉问答等。然而这带来了多图像输入带来的新挑战:随着任务复杂化,模型需要同时处理多张图像并生成一致、准确的回答,但现有模型在多图像理解中容易出现“幻觉”(hallucination)现象,即生成与图像内容不符或虚构的信息。幻觉问题严重影响模型的可信度与实用性,尤其在医疗、自动驾驶、 »