ICASSP 2024 - Day6

主会报告 5:Restructuring and Recognizing Human Actions in Video

讲者:Jitendra Malik (The University of California, Berkeley)

人工智能的一个核心问题是从图像和视频中开发技术来分析和理解人类行为。Jitendra Malik介绍了研究团队在这一重大挑战方面取得的一些最新成果。其团队已经开发出了从单张图像中使用Transformer神经网络重建人体的3D网格的高精度技术。在给定视频输入的情况下,通过3D跟踪将这些重建与时间联系起来,从而产生了“四维人类”(在空间中的3D + 在时间上的1D)。作为一个有趣的应用,可以利用这种能力将一个人的3D动作转移到另一个人身上,比如生成一个人在表演Michael Jackson的月球步或Michelle Kwan的滑冰动作的视频。

对手部的4D重建能力为机器人模仿学习提供了一个重要的参考来源。除了能够进行四维重建之外,现在还可以通过添加语义标签(例如“站立”、“奔跑”或“跳跃”)来识别动作。然而,长视频理解仍然是一个巨大的挑战,它要求系统能够在几分钟甚至几小时的时间内跟踪角色的活动,并理解电影情节。即使是最先进的视觉语言模型在这些任务上也难以取得成功,因此,虽然在这方面已经取得了实质性的进展,但仍有大量的工作需要进行,这是一个亟待解决的问题。

图 1 人类姿态重建

主会报告 6:Unleasing Generative AI Potential: An Industry Perspective

讲者:Joohyung Lee (Samsung Research)

本次报告概述了三星如何利用生成式人工智能的力量推动其各种产品线和运营领域的创新。该报告详细介绍了三星开发的 Gauss 模型,这是一套全面的语言、代码和图像模型,旨在解决各种用例,并且设计成各种不同的规模。

Gauss 模型的出现为三星开拓了新的技术前景,不仅能够有效地处理自然语言和图像数据,还能够编写代码,从而为公司的产品和服务提供更多创新性的解决方案。这一技术的引入使得三星能够更好地满足用户的需求,提高产品的智能化水平,加强在市场上的竞争力。

在报告中,讲者还深入探讨了将生成式人工智能整合到三星产品和服务中所面临的挑战和机遇。尽管这一技术带来了许多新的机遇,但同时也伴随着一系列的挑战,包括数据隐私和安全性等方面的考虑。然而,讲者表示他们将不断努力解决这些问题,并且致力于在未来将更多的创新带给用户。

图 2 LLMs可以做什么?

口头汇报 :Scale-aware competition network for palmprint recognition

讲者:Chengrui Gao (Sichuan University)

318实验室成员Chengrui Gao本次进行了一场口头汇报,主题是关于论文与生物特征识别的研究。在汇报期间,Chengrui Gao详细介绍了这项工作的内容,分享了实验结果和方法。汇报结束后,Chengrui Gao与多位学者展开了深入的内容探讨,就研究中的细节进行了交流和讨论。同时,也与学者们交流了最近的研究成果,探讨了各自领域的进展和挑战。此外,他们还就未来的研究方向进行了讨论,探讨了可能的合作机会。这次会议不仅促进了各方之间的交流与合作,也为未来的研究工作提供了新的启发和方向。

图 3 口头汇报