PRCV 2024 - Day2

主会场 —— 主旨报告

 报告题目:大模型背景下的数字内容取证
        讲者:谭铁牛(中科院自动化所,中国科学院院士)

图1 大模型背景下的数字内容取证

在数字化时代,随着人工智能技术的迅猛发展,尤其是深度学习的广泛应用,数字内容的生成和编辑变得更加便捷高效。然而,技术的双刃剑特性也带来了新的挑战,特别是在数字内容取证领域。生成式大模型如今能够生成逼真的文本、图像、音频和视频,可能被用于制造虚假信息、深度伪造等恶意目的,严重威胁社会秩序和信息安全。在这种背景下,取证工作变得日益复杂,需要更先进的技术手段应对伪造技术的不断升级。

在本次报告中,谭老师首先介绍了一套面向大模型生成内容的数字内容取证技术方案,其中包括多项关键技术的应用和融合。报告内容涵盖了传统图像篡改检测与取证、人像深度伪造检测,以及最新的AIGC(人工智能生成内容)图像和视频的检测技术。此外,针对网络上广泛传播的虚假信息,谭老师提出了检测与事实性验证的系统方法。为了从源头上应对大模型生成的高质量伪造内容,谭老师也前瞻性地探索了针对大模型的知识编辑与输出内容的限制策略。

谭老师的研究从泛化性、可解释性以及生成对抗博弈等多角度进行探索,取得了显著的成果。这些成果为在大模型背景下保障数字内容的真实性和可信性提供了重要的理论依据和实践方法,推动了数字内容取证领域的进步。本次报告使与会者对大模型时代的数字内容取证技术有了更加深入的了解,并对未来的发展方向充满期待。

分会场 (报告厅)——特邀报告

 报告题目:视觉物体检测的新趋势和新范式
        讲者:张兆翔(中科院自动化所,长江学者)

图2 视觉物体检测的新趋势和新范式

在计算机视觉与模式识别领域,视觉物体检测是一个重要问题,并在过去十余年间伴随着深度学习的兴起取得了重要进展。随着多模态大模型、生成式模型、世界模型等新兴技术的涌现,以及自动驾驶和机器人等关键应用的推动,视觉物体检测方向的发展呈现出新的趋势,方法创新也在不断突破,形成了全新的研究范式。

在本次报告中,张老师首先回顾了视觉物体检测的发展历程和基础,随后重点介绍了团队在该领域内进行的一系列代表性研究工作。报告通过自动驾驶等应用场景的实例,结合生成式世界模型等前沿方法,探讨了视觉物体检测在创新和应用中的最新进展,展示了这一领域的巨大潜力和未来发展方向。

分会场 (报告厅)——专题论坛

 报告题目:视言碰撞: 语言模型与视觉生态协同
        讲者:徐畅(悉尼大学),任博(南开大学),盛律(北京航空航天大学),王毅(AI lab),杨灵(北京大学博士在读)

图3 视言碰撞: 语言模型与视觉生态协同

在当今AI生成内容的世界中,扩散模型作为一种有价值的技术正越来越受到关注。在本次报告中,徐老师将介绍扩散模型及其在计算机视觉中的相关应用。扩散模型的应用不仅局限于图像生成,还涵盖了各种计算机视觉任务。例如,徐老师将讨论最近在视频动作分割中使用扩散模型的研究工作。此外,徐老师还指出,反向扩散过程可以视为逐步更新图像像素的方式,即将像素视为参数或变量。这一视角为优化扩散模型中的采样过程提供了一种全新的方法。通过重新思考如何将像素更新为参数,徐老师发现了一些可能影响图像生成稳定性的有趣挑战,并针对这些挑战开发了创新的优化策略,显著提升了模型的稳定性和性能。

高质量的大模型训练依赖于高质量的数据,尤其在三维领域尤为重要。然而,目前的三维数据在质量和数量上都远未达到要求。通过计算手段高效生成真实高质量的三维数据是一种可行的方案。神经渲染技术近年来在利用图像和视频生成三维数据方面展现了巨大的潜力,但在包含多镜面、半透明物体、运动烟雾等复杂光路的场景中仍面临较大挑战,多数相关研究仍局限于处理不透明的二维流形。在本次报告中,任老师将探讨如何从第一性原理和基础假设出发,增强神经渲染理论,使其能够胜任更广泛的场景数据生成任务。通过这一探索,任老师希望为三维数据的生成和大模型的训练提供更加坚实的基础和新的突破方向。

在多模态大模型和生成模型的推动下,围绕具身智能体的研究工作已经从传统的抓取、导航等任务,扩展到在复杂多模态环境中的通用交互任务。在本次报告中,盛老师将介绍面向具身智能体的多模态大模型及其多模态多任务高效微调方法,并在此基础上探讨实现具身智能体泛化能力的几种设计思路,包括在Minecraft等仿真环境和机械臂操作等真实环境中的尝试。最后,盛老师将展望端到端具身大模型的发展,讨论这一领域中的机会和面临的挑战,为未来的研究提供新的思考方向和潜在突破点。

视频理解是计算机视觉领域的关键研究方向,具有广泛的应用场景,例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。近年来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远影响。如何将视频有效嵌入这些大型模型中,并利用其能力提升视频理解的性能,已成为一个重要课题。在本次报告中,王老师将介绍InternVideo2,一个新的视频基础模型 (ViFM) 家族。该模型在视频识别、视频文本任务和以视频为中心的对话中取得了最先进的成果。王老师的核心设计是一种渐进式训练方法,将掩码视频建模、跨模态对比学习和下一个令牌预测相结合,并将视频编码器的规模扩展到60亿个参数。在数据层面,通过语义分割视频和生成视频音频语音字幕,优先考虑了时空一致性,从而增强了视频与文本之间的对齐。通过大量实验,王老师验证了该模型的设计,并在60多个视频和音频任务上展示了其卓越的性能。尤其值得注意的是,InternVideo2在多种与视频相关的对话和长视频理解基准测试中优于其他模型,突显了其在推理和理解长上下文方面的能力。

扩散模型(Diffusion Models)作为一种新兴的生成模型方法,在图像生成领域取得了显著成果。通过逐步添加噪声并学习逆过程生成数据,扩散模型展现了其在高质量图像生成中的巨大潜力。然而,如何在生成过程中实现精确的可控性仍是一个充满挑战的问题。在本次报告中,杨灵博士将探讨扩散模型的可控生成、复杂生成机制,以及其在图像、视频、3D和4D等多领域的应用。首先,杨灵博士将介绍扩散模型的一些可控生成方法,通过引入条件信息或引导策略,实现对生成结果的精确控制。接下来,杨灵博士将展示基于(多模态)大语言模型的复杂生成框架和优化策略,使扩散模型在生成过程中能够应对更复杂的场景。最后,杨灵博士将分享扩散模型在图像、视频、3D和4D等领域的应用方法和实例,展示其在多模态生成中的广泛应用潜力。

分会场 (学术厅)——特邀报告

 报告题目:细粒度多模态运动分析
        讲者:彭宇新(北京大学,杰青)

图4 细粒度多模态运动分析

运动是生命的基本要素,是现实世界的客观描述。与粗粒度、单模态的运动分析不同,细粒度、多模态的运动分析能够更准确地描述真实世界,同时也更加具有挑战性。细粒度多模态运动分析旨在利用文本、视频、3D姿态等不同模态的信息对目标动作进行细粒度的识别、定位、评价和重建,其关键科学问题在于如何精准辨识时空边界模糊的细粒度子动作,以及如何利用文本信息对人体动作进行精细重建。这一研究方向可广泛应用于智能安防、智慧医疗、智能体育和智慧传媒等领域。

在本次报告中,彭老师将介绍团队在细粒度多模态运动分析方面的最新研究成果,包括2024年CVPR会议接收的6篇论文。这些论文涵盖了团队在细粒度动作质量评价、文本驱动的细粒度时空动作定位、文本驱动的三维人体姿态估计等方面的近期进展。此外,彭老师还将讨论和展望这一领域未来的发展方向与趋势,为听众提供关于细粒度多模态运动分析的前沿见解和启示。

分会场 (学术厅)——专题论坛

 报告题目:开放环境可信感知模型和学习
        讲者:龚怡宏(西安交通大学,IEEE Fellow),朱军(清华大学,IEEE/AAAI Fellow),程明明(南开大学,杰青),张长青(天津大学,青拔),张煦尧(中科院自动化所,优青)

当前的深度学习神经网络(DNN)在增量学习新知识时面临“灾难性遗忘”旧知识的问题,缺乏连续学习的能力。基于ViT的图像识别大模型由于其网络结构更加复杂,在学习新知识时灾难性遗忘现象更加严重。龚老师的团队通过大量实验进一步发现,主流的基于知识蒸馏的持续学习方法存在“旧知识遗忘后重学习”的问题,这显著降低了持续学习的精度与收敛速度。龚老师的团队与认知科学领域的专家学者展开了长期深入的合作,借鉴人脑视觉记忆与概念学习的工作机理,取得了以下两个代表性研究成果:(1)提出了基于人脑视觉工作记忆拓扑不变性的持续学习方法,并推导出了该方法在稳定性与可塑性方面的数学分析结果;(2)提出了基于人脑类比学习机制的小样本新概念学习与泛化方法。大量对比实验展示了这两种方法在解决灾难性遗忘问题上的有效性,以及其卓越的持续学习性能。

判别式与生成式是模式识别的两种基本范式,传统的生成模型由于受限于模型表达能力,通常会引入过高的偏差。近期,随着深度生成模型的快速发展,对生成式模式识别的前景需要重新进行审视。在本次报告中,朱老师将介绍深度生成模型(如扩散模型)的前沿进展,并探讨基于深度生成模型的高效且鲁棒的模式识别方法。报告旨在为听众提供对生成模型在模式识别领域应用的全新视角和见解。

在开放动态场景中,新类别的发现与更新是当前机器学习和人工智能领域面临的重要挑战之一。本次报告中,程老师将探讨如何在复杂和变化的环境中,通过利用大量合成视觉类别来学习未来新类别的多样化和判别性表示,结合基于最近邻距离感知标签一致性样本选择的渐进监督表示学习,以增强新类别的发现能力。此外,程老师指出,目前大多数新类别发现方法仅使用单一的视觉模态信息。为此,程老师进一步探索了在图像文本预训练模型中引入文本信息,以提供补充的判别性信息。最后,程老师将对新类别发现与更新的研究成果进行总结,并展望这一领域未来的发展方向。

多模态信息融合在科学发现、医疗诊断、机器人等领域具有广泛而重要的应用。不同模态数据所蕴含的信息存在互补性、冗余性、动态性、不平衡和不完整等诸多复杂关联和不确定性,这些特性对多模态数据融合的效果产生了深远影响。在本次报告中,张老师将从统一的视角对低质量多模态数据进行深入刻画,并介绍面向低质量多模态数据的融合理论、方法及其应用,帮助听众更好地理解如何在复杂条件下实现多模态数据的有效融合。

在模式识别问题中,除了追求较高的分类精度外,如何获得有效的置信度估计也是一个重要课题。置信度反映了识别结果的可靠性,通常可用于错分样本检测和分布外样本检测等任务,对于提升开放环境下的鲁棒性具有重要意义。在本次报告中,张老师将介绍课题组在置信度估计方面的最新科研进展,并对这一领域的未来研究趋势进行展望。报告旨在帮助听众更好地理解置信度估计在模式识别中的作用及其对模型鲁棒性的提升。

分会场 (塔里木厅)——特邀报告

 报告题目:文本提示“检测分割一切”模型研究
        讲者:王兴刚(华中科技大学,四青)

Meta公司开发的“分割一切”模型(SAM)在全球范围内获得了广泛的关注和应用,但在SAM和SAM 2中,交互提示仅限于点和包围盒等形式,无法实现基于文本提示的自动化分割。

在本次报告中,针对这一难题,王老师团队从视觉特征与文本特征的高效交互出发,在视觉基础模型和文本基础模型的基础上,设计了大规模弱监督预训练和早期多模态特征融合等有效策略,分别开发了YOLO-World模型(CVPR 2024, 4.1k GitHub stars)和EVF-SAM模型(arXiv:2406.20076,225 GitHub stars),在检测和分割一切目标的性能方面取得了业内领先的成果。

分会场 (塔里木厅)——专题论坛

 报告题目:可信具身视觉特征学习
        讲者:吴小俊(江南大学,IAPR/AAIA/AIIA Fellow),孟德宇(西安交通大学),严严(厦门大学),邹征夏(北京航空航天大学),徐婧林(北京科技大学)

由于视觉信息位于黎曼流形上,因此在黎曼流形上开展深度学习算法的研究是一种本征的深度学习范式。在本次报告中,吴老师将首先对黎曼流形及其学习方法作简单介绍,然后通过几个案例展示在黎曼流形上设计深度学习算法的思想与方法。此外,吴老师还将介绍黎曼深度学习在图像质量增强、目标跟踪与识别、行为识别以及视觉融合等方面的应用研究,帮助听众深入理解这一前沿方向的潜力和应用前景。

以深度学习和大模型为代表的机器学习方法与技术已成为当今科技领域的研究焦点。然而,相比技术水平的迅猛提升,机器学习基础理论的研究进展却远远滞后,导致大量技术经验发现缺乏理论支撑,以科学性为基础的学科体系面临严峻挑战。重建机器学习的理论体系已成为当前科技领域的重要前沿问题。在本次报告中,孟老师将以深度学习中的三大技术实验现象(任务泛化能力、智能涌现现象、鲁棒-精确悖论)的理论内涵为分析对象,介绍未来机器学习理论可能发展的新型学习、统计与物理理论的新框架。此外,孟老师还将分享研究组在通信、生命、医疗技术领域的场景动态适应、生命智能涌现和智能可靠诊疗三大技术问题上的机器学习数学技术方面的初步探索,为听众提供关于重建机器学习理论体系的前沿思考和实践案例。

人脸表情识别具有重要的研究价值。为了实现有效的人脸表情识别,学习鲁棒的表情特征至关重要。然而,人脸表情图像常常受到身份、光照、姿态等多种因素的影响,严重干扰了表情特征的提取。同时,不同表情之间也存在极大的相似性,这些问题使得人脸表情识别面临极大的挑战,精度容易急剧下降。在本次报告中,严老师将介绍研究组最近在人脸表情识别方面的三个研究工作。第一个研究是基于特征解构与重构学习的人脸表情识别方法;第二个研究提出了一种基于干扰分离学习的方法;第三个研究则探索了基于解耦表示学习的人脸表情识别方法。最后,严老师还将简要介绍团队在人脸属性识别上的一些研究进展。

遥感基础模型(大模型)作为遥感技术与智能前沿的交叉融合,是空天信息领域的基础前沿方向。生成式遥感基础模型作为其中的重要分支,在数字化遥感场景构建和赋能下游遥感图像解译等任务中起到了关键作用。在本次报告中,邹老师将介绍课题组近期在遥感生成式基础模型方面的相关工作,包括全球范围的遥感图像生成、多模态遥感图文生成等研究成果。最后,邹老师还将探讨生成式遥感基础模型的潜在应用场景和未来的研究方向,展示其在遥感技术发展中的重要前景。

细粒度运动分析旨在通过精细化地分析人体动作序列,实现对动作的细粒度识别、定位、姿态估计和质量评价,广泛应用于智能安防、智慧医疗、智能体育、智慧传媒等领域。在本次报告中,徐老师将首先介绍细粒度运动分析面临的挑战与其重要意义,重点讲解文本驱动的细粒度时空动作定位、细粒度提示驱动的三维人体姿态估计以及以人为中心的细粒度动作质量评价等研究工作。徐老师将探讨如何在时间和空间上定位边界模糊的细粒度动作,如何在三维空间中估计深度不确定的人体姿态,以及如何从细粒度层面更精确地评价人体动作质量。这些研究在运动康复、体能测试和数字传媒等领域具有重要的应用价值。