PRCV 2023 - Day2
主会场 —— 主旨报告
报告题目:多模图像融合感知
讲者:李树涛(湖南大学教授)
多模图像融合感知是一项前沿研究,旨在将不同平台、不同传感器获取的图像信息融合,从而实现更全面、更准确、更可靠的环境感知。在这次报告中,李教授首先介绍了多模图像感知技术的基本原理、典型应用以及当前面临的挑战。随后,他分享了实验室在多模图像融合与识别方面的研究成果。这些成果通过融合不同传感器获取的图像,取得了显著的进展,并在图像识别、物体检测和场景分析等领域展现了巨大的潜力。最后,李教授简要介绍了这些研究成果在资源调查、环境保护和灾害监测等领域的实际应用,并展望了未来的研究方向。这次报告使听众更加深入了解了多模图像融合感知技术,并对其在未来的发展充满期待。
分会场1 —— 专题论坛
论坛题目:视频生成和理解技术
讲者:高林(中国科学院计算技术研究所副研究员)、李文(电子科技大学教授)、刘昕(视拓云首席科学家)
视频生成与理解是计算机视觉领域基础性且具有挑战性的问题之一,在数字内容生成制作、 安防监控等领域有着极为重要的应用价值。此次论坛主要围绕视频生成与理解前沿主题,涵盖了概率扩散模型、视觉基础模型等研究热点,重点讨论了视频生成技术及其垂直场景、视频理解基础大模型的研究现状与最新进展。具体说来, 本次的报告内容主要涵盖:1)由文本、几何先验等引导的、可交互的视频生成与编辑技术; 2)视频理解基础大模型; 3)视频目标感知技术。
分会场3 —— 特邀报告
报告题目:视觉感知与自动驾驶
讲者:鲁继文(清华大学副教授)
自动驾驶作为人工智能和无人系统等领域的研究热点,在工业、农业、交通和服务等领域中重要的应用前景。鲁继文教授的报告首先回顾了自动驾驶与视觉感知的发展历程,随后详细介绍了近年来在面向自动驾驶的视觉感知领域取得的主要进展。这些进展涵盖了针对不同类型数据(包括点云数据、图像数据、环视数据以及多模态数据)的视觉感知方法,并深入探讨了它们在自动驾驶感知任务中的应用,如视觉目标检测、视觉场景重建、语义占有预测、运动轨迹预测以及语义地图构建等方面。这些进展为实现安全、高效的自动驾驶系统提供了重要的技术支持,并为推动自动驾驶技术在各个领域的应用带来了新的可能性。
报告题目:基于稀疏可穿戴设备的人体运动感知与重建
讲者:徐枫(清华大学副教授)
针对人的运动感知和重建是计算机图形学、计算机视觉领域的热点研究问题,以人脸、人体、 人手以及全身为研究对象的相关技术,在虚拟 / 增强现实等应用场景具有重要意义。在纯人感知与重建的基础上,人与场景的交互受到越来越多研究者的关注,成为这一领域的前沿方向之一。徐枫教授的报告着重探讨了交互规律建模和交互对象重建这两个重要方向。他介绍了如何将物理规律和数据先验融合到算法中,以提供更多解决思路和方法。通过建模交互规律,我们可以更好地理解和预测人与环境的互动方式,这些研究成果有望为虚拟增强现实以及其他相关应用领域提供更多的解决方案,进一步推动人的运动感知和重建技术的进步。
分会场4-特邀报告
报告题目:自适应感知与视觉基础模型
讲者:程明明(南开大学教授)
在处理复杂开放场景时,现有视觉感知系统常常面临着一系列问题,包括粒度自适应不准确、算力自适应性不足以应对终端系统的计算需求、以及目标任务数据自适应性差导致无法进行准确算法的问题。在本次报告中,程教授介绍了一种自适应视觉感知技术,该技术能够支持粒度自适应、算力自适应和数据自适应。通过自适应感知技术,程教授进一步结合了无监督表征学习、目标自主定位和可持续学习的能力,探讨了视觉基础模型方面的最新进展与思考。这些进展为解决复杂开放场景下的视觉感知问题提供了新的思路。
本次报告不仅介绍了自适应视觉感知技术的基本原理,还深入探讨了其在无监督学习、目标定位和可持续学习方面的最新研究进展。这些研究成果有望为改进视觉感知系统在复杂场景中的性能提供新的解决方案。这次报告为听众提供了关于自适应视觉感知技术的全面了解,并展示了其在未来发展中的巨大潜力。
报告题目:慧眼识“人”:面向稳健高效的人体视觉感知
讲者:张姗姗
在计算机视觉领域,对视觉数据中的人进行分析和理解具有广泛的应用价值,因此备受关注。近年来,得益于深度学习的发展,人体视觉感知相关技术取得了显著进展。在复杂的现实场景中,我们面临着许多挑战,例如由于遮挡引起的人体信息缺失、不同场景之间的差异以及复合任务推理所需的时间等。为此,张教授及其团队致力于提高人体视觉感知方法的稳健性和运行效率。本次报告还介绍了张教授团队在人体视觉感知任务中的多项研究成果,包括行人检测、行人搜索、人体语义解析和密集人群计数等。针对不同的挑战,他们进行了深入的探索和思考。