Valse 2026 - Day3

5月10日,VALSE 2026 进入第三天议程。当天大会 Workshop 展开,共举办8场Workshop,内容涵盖三维视觉与空间、持续学习与持续智能体、遥感解译、多模态大模型、世界模型、智慧医疗等多个当前人工智能领域热点方向。来自国内外高校、科研机构与企业界的众多专家学者齐聚武汉,共同探讨人工智能前沿技术的发展趋势与未来方向。

1. workshop 世界模型

世界模型旨在赋予AI理解物理规律并预测未来状态的能力,是通往通用人工智能及高级具身智能的关键技术路径。讲者回顾了具身视角下世界模型的历史溯源 。报告深入探讨了具身世界模型的建模对象,包括动力学模拟器、状态编码器及奖励预测器的协同机制。通过对比发现,该算法在样本效率及多步规划能力上显著优于传统的Off-policy方法,有效降低了策略优化的试错成本。

世界模型

2. workshop 多模态大模型:精细感知

精细感知侧重于对图像中细微特征、局部部件及其复杂关系的深度建模,是解决工业缺陷检测等高精度任务的核心东南大学的讲者在Workshop 中分享了面向细粒度视觉对象的强判别性图像表示学习 。针对复杂环境、标记受限及海量数据三大挑战,报告重点介绍了鲁棒细粒度图像识别中的部件关系建模,以及在少样本和长尾分布下的细粒度检测与检索技术,为精细化感知提供了系统性的解决方案。

多模态大模型

3. workshop 遥感解译:空天跨域目标关联

遥感解译利用高空传感器获取的影像进行目标分类与提取,在国土监测、环境评估及军事侦察中具有不可替代的战略价值在Workshop 中,讲者展示了“空天跨域目标关联”的最新实测验证工作 。报告通过对比基线方法与提出方法在常规场景及噪声场景下的表现,证明了新方法在处理复杂空天环境下跨域目标匹配时的正确性与鲁棒性,显著提升了跨平台情报协同的精度。

遥感解释

4. workshop 多模态学习助力智慧医疗

智慧医疗通过整合放射影像、病理切片及临床病历等多模态数据,利用AI实现疾病的自动辅助诊断,极大提升了医疗诊断的效率与准确性。本Workshop聚焦于科研向落地的转化 。报告展示了利用三维自动分割技术实现肾脏、肾肿瘤及肾周特定范围内脂肪ROI(感兴趣区域)的精准提取。三维自动分割效果的可视化结果表明,AI辅助系统能够为复杂手术规划提供清晰的解剖结构参考。

多模态智慧医疗

5. 持续学习与持续智能体

持续学习旨在使AI能够像人类一样在学习新知识的同时,克服“灾难性遗忘”,维持对旧任务的记忆与鲁棒性天津理工大学的讲者探讨了持续学习中的抗干扰挑战 。报告指出,在持续学习过程中加入对抗攻击会导致遗忘现象更加严重。通过对比LwF、EWC-on、SI及RAPF等多种方法,研究展示了如何在保持干净样本性能的前提下,有效缓解遗忘并提升对抗鲁棒性。

持续学习与智能体

6. 自动驾驶:无图零样本视觉导航

自动驾驶技术正向“去地图化”与“端到端”演进,要求车辆能够在陌生、复杂的封闭空间(如地下车库)具备自主感知与推理能力讲者分享了在地下车库场景下的无图零样本视觉语言导航技术 。报告详细展示了系统如何结合短期记忆与视觉语言模型进行推理。例如,VLM能通过分析电梯厅标识的文字和箭头方向,自主做出向左转的动作决策,实现了无需预建地图的高级导航。

自动驾驶

7. 优秀学生论坛

优秀学生论坛是VALSE的重要特色,旨在挖掘并展示青年学子在视觉与学习领域的创新思维与潜力,促进学术薪火相传。Workshop 16汇聚了来自清华、上海交大、港大等名校的顶尖学生代表 。在热烈的学术氛围中,优秀学子们分享了他们在多模态大模型、高效推理及三维重建等领域的突破性工作,展现了中国人工智能新一代研究者的风采。

优秀学生论坛