5月9日,VALSE 2026 进入第二天议程。当天大会主要围绕 Tutorial 与 Workshop 两大板块展开,共举办4场Tutorial、11场Workshop,内容涵盖智能体AI、视觉基础模型、具身智能、空间智能、视频生成、AI4Science、可信AI、文档图像智能、神经符号智能等多个当前人工智能领域热点方向。来自国内外高校、科研机构与企业界的众多专家学者齐聚武汉,共同探讨人工智能前沿技术的发展趋势与未来方向。
1. Tutorial:聚焦人工智能前沿发展
上午举行的 Tutorial“视觉基础模型”吸引了大量参会者到场交流。报告围绕视觉基础模型、多模态视觉学习以及通用视觉表征等方向展开,重点讨论了视觉大模型在复杂视觉理解、多任务协同以及跨模态场景中的应用与挑战,并对未来视觉基础模型在具身智能与通用人工智能中的发展前景进行了展望。现场参会者围绕模型架构、训练范式以及多模态融合等问题展开了热烈讨论。
下午举行的 Tutorial“具身智能基础模型”与“空间智能”进一步拓展了基础模型在真实世界场景中的应用。报告围绕具身感知、环境交互、空间理解以及三维场景建模等方向展开,重点探讨了基础模型在机器人感知与行动协同、空间推理以及开放世界环境中的关键挑战与发展趋势。与会者围绕具身智能与空间智能未来在机器人、自主系统以及数字世界中的应用前景进行了深入交流。


2. Workshop:多方向前沿议题深入展开
Workshop “智能推理:视觉推理、科学推理”聚焦当前人工智能领域备受关注的模型推理能力问题,重点探讨了多模态推理、大模型推理能力增强以及复杂科学问题求解等方向。与会学者围绕视觉推理与科学推理的关键挑战进行了深入交流,现场讨论氛围活跃。

Workshop “大语言模型与人机交互”重点关注大模型驱动下的新型交互模式,围绕自然语言交互、多模态对话以及智能助手系统的发展趋势展开分享。报告讨论了生成式AI在人机协同与智能交互中的应用潜力,并对未来多模态交互系统的发展方向进行了展望。

Workshop “未来终端影像技术”主要围绕端侧设备中图像处理技术展开讨论,与会者重点探讨了生成式AI与轻量化模型在移动终端、智能设备等场景中的应用潜力,并围绕端侧视觉模型的实时性、计算效率与成像质量优化等关键问题进行了深入交流。

Workshop “视频生成技术”围绕当前生成式AI背景下的视频生成与理解技术展开讨论,多位学者分享了视频领域相关研究的最新进展,并结合当前大模型的发展趋势,对视频生成技术未来的发展方向与应用前景进行了交流。现场讨论氛围活跃,与会者围绕生成式AI在视频领域中的研究热点与关键挑战展开了深入探讨。
