Valse 2024 - Day1
2024年5月5日至5月7日,第十四届视觉与学习青年学者研讨会(VALSE 2024)在山城重庆渝北区悦来国际会议中心举办。本届大会由中国人工智能学会和中国图象图形学学会联合主办,重庆邮电大学承办,重庆大学协办。VALSE 2024大会将延续往年模式,继续聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向,在3天的时间里为参会者呈现2个大会主旨报告、5个大会特邀报告、12个年度进展评述(APR)报告、4个讲习班 (Tutorial)、20个研讨会 (Workshop)共约100个专题报告、约200篇年度顶会顶刊论文墙报 (Poster)展示等内容,为广大青年学者和青年学生呈现一场学术盛宴!此外,VALSE继续推陈出新,将在VALSE 2024上发布组委会评选的《视觉与学习领域2023年度十大学术进展》。
1. 视觉基础大模型
香港大学赵恒爽教授主持了关于视觉基础模型年度进展的报告,向与会者们进行了讲解。在报告中,赵教授介绍了2023年度多个令人瞩目的优秀视觉基础模型,涵盖了2D基础模型、视频基础模型、3D基础模型、多模态基础模型以及Benchmark等领域。首先,赵教授全面解析了Segment Anything Model的技术方案及其在下游应用中的重要性。他还介绍了其他同期类似方法,如SegGPT和SEEM等,以加深观众对这一领域的理解。接着,赵教授逐一介绍了在2023年具有广泛影响力的其他基础模型,包括DINO、LISA、Emu2等。通过详细的图文说明,赵教授使观众能够更好地理解这些模型的原理和应用。在报告中,赵教授还强调了这些视觉基础模型在计算机视觉领域中的重要性,并展望了未来的发展方向。他强调了继续推动基础模型研究的重要性,以应对不断增长的视觉数据和复杂任务的挑战。通过这次报告,与会者们对2023年度的优秀视觉基础模型有了更深入的了解,并对未来的研究方向有了更清晰的认识。
2. 视觉通用人工智能
华为的谢凌曦老师在会议上进行了关于视觉通用人工智能年度进展的报告。谢老师以大语言模型(如ChatGPT)的应用为基础,强调了大语言模型所带来的通用人工智能的无限可能性。然而,他也指出在计算机视觉领域,我们仍然没有看到通用人工智能的曙光。
接下来,谢老师详细解释了通用人工智能的定义,并强调了通用人工智能所需的三个要素。通过实际案例,他说明了为什么自然语言处理领域能够成功实现通用人工智能,而在计算机视觉领域这个概念很难实现。这是因为视觉信号难以无损地转化为标记序列,并且视觉世界中可能的动作难以穷尽。此外,计算机视觉领域还缺乏根据动作自然形成下一状态的机制。
针对这一问题,谢老师提出了一个问题:为什么在人工智能的发展中,计算机视觉落后于自然语言处理。谢老师通过一系列的实例回答了这个问题,指出自然语言处理领域天然存在交互,所有任务都可以归纳为生成式任务,这使得模型训练过程接近于通用人工智能的形式化定义。然而,在计算机视觉领域,交互环境尚未存在,不同的代理任务之间相互孤立,这使得人们无法按照通用人工智能的形式化定义来训练模型。
最后,谢老师介绍了视觉交互环境的应用实例,并强调了生成式模型对于实现视觉可交互环境的重要性。他指出,通过建立适合视觉场景的交互环境,可以推动计算机视觉领域向通用人工智能的目标迈进。
3. 面向大模型的新型高效率网络架构
华中科技大学的王兴刚教授在会议上进行了关于面向大模型的新型高效网络架构年度进展的评述。他首先向与会者解释了为什么Transformer能够在自然语言处理领域占据主导地位。这得益于Transformer强大的建模能力、序列化处理能力、全局视野和灵活的位置编码。此外,Transformer的容量大和可扩展性强也是其最大的优点。然而,Transformer的局限性在于其计算和存储复杂度随序列长度的增加呈二次方增长。这在多模态大模型和具身智能等场景下存在长序列问题。为了解决这个问题,王教授介绍了围绕Transformer二次复杂度的研究成果,例如Vision mamba和Vision RWKV等。他重点介绍了如何使用mamba在更多计算机视觉下游任务上展现出比原始Transformer更好的性能,并具有更高效的处理速度。最后,王教授也指出了mamba仍然面临一些挑战,例如缺乏大规模预训练的验证、缺乏灵活的多模态自监督训练方法和缺乏更高效的并行训练方法等。这些挑战需要进一步的研究和探索。
王教授的报告使与会者对面向大模型的新型高效网络架构有了深入的了解。他的研究成果为解决Transformer的复杂度问题提供了有希望的方向,并为构建更高效的计算机视觉模型提供了启示。