Valse 2026 - Day1

2026年5月8日至5月10日,第十六届视觉与学习青年学者研讨会(VALSE 2026)在湖北省武汉市国际博览中心举办。本届大会由中国人工智能学会和中国图象图形学学会联合主办,华中科技大学、武汉大学和中国地质大学(武汉)承办。VALSE 2026大会将延续往年模式,聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向,在3天的时间里为参会者呈现5个大会特邀报告、13个APR 报告、4场 Tutorial、20场 Workshop、 400余篇顶会顶刊 Poster。为领域内的中国青年学者提供了一个深层次学术交流的舞台。视觉计算实验室博士生刘宜松;硕士生樊禧参与了此次研讨会。大会第一天内容集中于主旨报告和年度进展报告。

参会合影

1. 大模型高效计算与推理

讲者:戴国浩(上海交通大学)

随着大模型参数规模的激增,如何优化算力利用率并实现模型在各类硬件上的快速推断成为工业界关注的焦点 。戴教授针对当前大模型面临的算力瓶颈,梳理了高效计算与推理的关键技术进展 。他分析了硬件加速、算子优化及轻量化部署等方向的最新成果,为实现更快速、更低能耗的大模型应用落地提供了参考。

大会报告1-大模型高效计算与推理

2. 开放世界目标检测

讲者:秦杰(南京航空航天大学)

开放世界感知要求系统能够在识别已知类别的同时,自主发现并学习现实环境中不断出现的未知目标 。 秦教授针对传统检测模型在处理未知类别时的局限性,评述了开放世界目标检测的最新研究成果 。他探讨了如何通过知识迁移与开集识别技术,使智能系统在动态变化的环境中具备持续学习与自主发现的能力 。

大会报告2-开放世界目标检测

3. 基于大语言模型的智能体

讲者:郝建业(天津大学)

智能体(Agent)作为大模型的高阶形态,能够模仿人类进行任务分解、工具调用及环境自主规划,标志着从对话向行动的跨越 。 郝教授对大语言模型驱动的智能体进行了深度综述 。报告分析了智能体在任务规划、环境反馈及多机协同等方面的决策机制,展示了从单一语言模型向具备实际执行能力的人工智能实体的转变。

大会报告3-基于大语言模型的智能体

4. Omni 大模型

讲者:傅朝友(南京大学)

多模态交互大模型旨在消除文本、图像、语音间的界限,实现全感官协同的自然交互与语义理解 。 傅教授介绍了多模态交互大模型(Omni Models)的年度进展 。报告重点分析了全模态统一表征与跨模态对齐的最新范式,展示了 Omni 大模型在处理复杂图文对话、音视频理解等任务中的表现。

大会报告4-Omni 大模型

5. Speaking the Language of Space: Automating 3D Workflows with Agentic Vision

讲者:虞晶怡(上海科技大学)

空间智能旨在赋予机器理解、建模及与三维物理空间交互的能力,是具身智能落地的核心基础 。 虞教授分享了空间智能领域的最新进展,重点讨论了如何利用“Agentic Vision”自动化三维工作流 。报告展示了通过视觉智能体理解空间语言、实现复杂3D场景自动构建的技术路径,引发了现场关于具身智能与空间建模的广泛讨论 。

大会报告5-Speaking the Language of Space: Automating 3D Workflows with Agentic Vision

6. 淘天AIGC:模型能力建设与应用实践

讲者:战春儒(阿里巴巴淘天集团)

学术需要与产业相结合,当前生成式AI(AIGC)正在重塑内容生产范式,通过自动化、个性化的创作能力大幅提升商业生态的运营效率 。 战春儒先生详细介绍了淘天集团在 AIGC 领域的模型能力建设及其在电商场景下的应用实践 。报告涵盖了从生成式模型底层优化到前端内容自动生成的完整链条,展示了大模型技术在商业生态中释放的巨大生产力。

大会报告6-模型能力建设与应用实践