Valse 2025 - Day1

2025年6月6日至6月8日,第十五届视觉与学习青年学者研讨会(VALSE 2025)在广东省珠海市珠海会展中心举办。本届大会由中国人工智能学会和中国图象图形学学会联合主办,中山大学承办。VALSE 2025大会将延续往年模式,聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向,在3天的时间里为参会者呈现5个大会主旨报告、2个年度进展评述(APR)报告、4个讲习班 (Tutorial)、20个研讨会 (Workshop)共约100个专题报告、约200篇年度顶会顶刊论文墙报 (Poster)展示等内容,为领域内的中国青年学者提供了一个深层次学术交流的舞台。此外,VALSE继续推陈出新,将在VALSE 2025上发布组委会评选的《视觉与学习领域2024年度十大学术进展》。视觉计算实验室博士生程俊龙,姚和;硕士生樊禧,朱陶涛参与了此次研讨会。大会第一天内容集中于主旨报告和年度进展报告。

参会纪念

1. 迈向通用文字识别:文档智能模型的进展与趋势

讲者:白翔(华中科技大学)

在大模型时代,文字识别技术已经取得了显著的进步,展示了实现通用OCR的潜力。在本次报告中,白教授首先全面分析了大模型在OCR识别方面的表现;接着,他介绍团队在多任务统一的文字识别方法,面向文档智能理解的多模态大模型,大模型智能文档推理等技术进展;最后,他对对文档智能的发展趋势进行展望。

大会主旨报告1-迈向通用文字识别:文档智能模型的进展与趋势

2. 高效视觉感知与个性化生成

讲者:程明明(南开大学)

高效的视觉感知与内容生成算法能够显著提升目标检测、场景理解与动态变化的识别精度与处理速度,为智能系统提供更加可靠的实时决策支持。程教授从多粒度特征提取、伪装目标检测、高效生成模型训练、个性化生成等角度介绍高效视觉感知与个性化内容生成的进展。值得注意的是,报告中所涉及的技术都立足于国产芯片与深度学习框架进行了开源。此外,他针对当前感知与生成模型面临的关键技术挑战展开分析,并对未来技术发展趋势与应用前景进行展望。

大会主旨报告2-高效视觉感知与个性化生成

3. 大模型背景下的强化学习

讲者:俞扬(南京大学)

2024年图灵奖授予研究强化学习的先驱。强化学习已从早期游戏任务扩展到机器人控制等复杂物理环境中的应用。俞教授回顾了强化学习技术发展历史,并汇报在大模型和具身智能受到高度关注的背景下,强化学习技术的发展与变化,包括面向大语言模型的强化学习、借助大模型增强强化学习通用性、面向具身智能的决策等方面的发展趋势。

大会主旨报告3-大模型背景下的强化学习

4. 机器学习的“变”与“不变”

讲者:孟德宇(西安交通大学)

在深度学习快速迭代的浪潮中,前沿研究聚焦于从“变”的角度构建机器学习方法,如增加数据/标记规模、设计创新网络架构、构建多样学习模式等。然而,从机器学习的基础研究视角,可发现机器学习的各个环节中存在更为本质的”不变性“规律与内涵,如数据高维标记空间的低维特征模式、网络基础模块的不变/等变性结构本质、学习模式设计的内在统一性规律等。把握这些不变性内涵,有利于更深刻理解提升机器学习泛化性、鲁棒性、可解释性机理的理论方法途径,更合理利用这些基础原理设计更加简洁合理的学习模式,构建更加具有深刻内涵的机理-数据双驱动、知识-网络相融合的有效机器学习方法。

基于此,孟教授介绍针对高维标记空间低维不变性隐空间提炼的“标记分布建模”理论与方法、针对网络基础卷积模块旋转-尺度-仿射等变性结构刻画的“参数化卷积”理论与方法、针对机器学习方法超参设置不变性规律提炼的“模拟学习方法论”理论与方法,从而尝试探讨对机器学习方法如何从“变”中提炼其“不变”内涵的方法论思想,为机器学习的基础研究与工程应用提供一种可参考的视角。

大会主旨报告4-机器学习的“变”与“不变”

5. 视觉感知与自动驾驶

讲者:鲁继文(清华大学)

自动驾驶是人工智能与机器人领域的研究热点,在工业制造、农业生产、交通运输、现代服务等领域有着重要应用前景。鲁教授介绍了自动驾驶视觉感知近年来的主要研究进展,包括视觉场景生成、三维占据预测、端到端自动驾驶、自动驾驶大模型等方法与技术,同时深入分析其优缺点与应用潜能,最后将对自动驾驶视觉感知的未来发展趋势进行展望。

大会主旨报告5-视觉感知与自动驾驶

6. APR报告1-AI智能体

讲者:郝建业(天津大学)

郝教授首先介绍传统强化学习背景和基础,然后介绍在大模型时代下新的决策模型学习范式,以及强化学习如何助力决策模型及其所面临的挑战和最新技术进展,同时介绍在具身智能和agent等方向最新进展。

APR报告1-AI智能体

7. APR报告2-大模型复杂推理

讲者:仉尚航(北京大学)

仉教授概述了大模型复杂性推理的重要性及其研究背景。总结近一年大模型复杂推理的基础进展与主要技术路线,并介绍多模态融合与复杂推理能力提升的关键探索与最新成果,同时列举多模态大模型应用于复杂推理任务的具体案例。最后,分析多模态大模型在复杂性推理的未来趋势、潜力与挑战。

APR报告2-大模型复杂推理