Valse 2024 - Day3

多模态大模型

多模态大模型是一种基于深度学习的模型,能够同时处理多种模态的信息,包括文本、图像、音频、视频等。这些模态可以来自不同的数据源,也可以是不同的表示形式。通过利用多种模态的信息,多模态大模型能够提高模型的性能和泛化能力。

在本次会议的Workshop环节中,有六位讲者分别是刘禹良(华中科技大学)、王士进(科大讯飞)、王文海(香港中文大学)、丁二锐(百度)、师忠超(联想研究院)和张博(浙江大学)。他们分享了各自团队在多模态大模型方面的研究工作,为与会者提供了宝贵的学习经验。

图1. Panel Discussion

此外,在panel discussion环节中,讲者们回答了与多模态大模型相关的六个热门问题。这些问题引起了与会者的广泛关注,讲者们的回答给予了与会者新的启发和思考。多模态大模型的发展对于实现更加全面和准确的信息处理具有重要意义。通过整合多种模态的信息,这些模型可以在不同领域和任务中发挥重要作用,如自然语言处理、计算机视觉、语音识别等。

1. 迈向现实世界的多模态大模型(张博)

在本次报告中,张教授分享了三个主要工作:高质量图像生成、三维生成扩散模型和多模态基础模型,这些工作旨在将多模态大模型应用于现实世界的场景。首先,在高质量图像生成方面,张教授介绍了两个模型:StyleSwin和VQ-Diffusion。StyleSwin模型在生成高质量图像方面表现出色,超过了标杆工作StyleGAN。而VQ-Diffusion模型则是业界首个基于扩散模型的文生成图模型,生成的图像质量超过了DALLE v1,并且速度提升了15倍。其次,在三维生成扩散模型方面,张教授介绍了Rodin模型,这是首个基于扩散模型的虚拟人生成模型。Rodin模型的出现为虚拟人的生成带来了新的可能性,展示了多模态大模型在三维领域的应用潜力。最后,张教授详细介绍了团队的多模态大模型DeepSeek-VL,包括其模型架构、训练方案和评估结果。这一分享使与会者对多模态大模型有了更清晰的认识,了解了其在不同领域和任务中的应用前景。

图2. 迈向现实世界的多模态大模型

张教授的报告突出了多模态大模型在现实世界中的应用,并展示了团队在图像生成、三维生成和基础模型方面的研究成果。这些成果对于推动多模态大模型的发展,助力其在实际应用中发挥更大的作用具有重要意义。与会者们对于多模态大模型的潜力有了更加深入的理解,并为他们在相关领域的研究和实践提供了启示。

2. 多模态大模型Monkey及其在文档智能中的应用(刘禹良)

刘教授首先向与会者介绍了多种提示多模态大模型的途径,包括跨模态的一致性、高质量数据、高效的视觉-语言融合和视觉思维链等。他指出,目前主流方法主要从提高分辨率和完善数据两个方面入手。

图3. 多模态大模型优化方案

接着,刘教授详细阐述了Monkey模型的工作原理和取得的成果。Monkey模型通过低成本扩大分辨率并提供详细描述,帮助模型更好地理解图像细节,刷新了多个SOTA(State-of-the-Art)记录。甚至在密集文本问答等难题上,Monkey模型能够完成GPT4V都感到困惑的任务。通过在18个不同的数据集上进行测试,Monkey模型在图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中展现出有竞争力的性能。

在取得Monkey模型成功经验的基础上,刘教授团队进一步构建了TextMonkey模型,利用LLM(Language and Vision Model)强大的理解和对话能力,在不依赖OCR模型的情况下完成基于文本相关的任务。TextMonkey模型具备以下关键特点:(1)高效地扩展大分辨率,同时尽量不丢失重要信息;(2)引入更多的文字任务;(3)如何减少输入LLM的令牌长度。此外,刘教授团队还扩展了支持PDF文档的文本和图表联合理解与问答模型PDFMonkey模型。

最后,刘教授总结了多模态大模型未来技术发展的几个趋势:(1)更加轻量化的设计;(2)更加依赖于视觉基础模型;(3)更多面向垂直领域的专属多模态大模型;(4)更好的跨模态协同学习;以及(5)持续学习和在线学习能力。这些趋势将推动多模态大模型在未来的发展,并为实际应用带来更多创新和进步。

图4. 多模态大模型未来技术发展趋势

视频生成的初探及其可控性研究

讲者:王鑫涛(快手)

王老师的报告以"Sora"为起点,首先介绍了视频生成的概念,并分享了早期视频生成的经典方法,包括确定性网络和随机网络。他还介绍了GAN时代和Diffusion时代的视频生成方法,以及最近的自回归视频生成方法,让与会者们对视频生成的发展历史有了更详细的了解。

在报告中,王老师引导与会者讨论了视频生成对未来多模态生成模型的启示以及需要改进的方面。特别是针对可交互环境模拟任务,他指出现有多模态生成模型在采样效率、可控性等方面存在问题。为了解决这些问题,他从概率建模的角度出发,介绍了一些高效、可控的多模态生成算法的初步探索。随后,他以此为脉络介绍了文到图、文到视频、文到3D多模态内容生成的最新进展,并探讨了它们在可交互环境模拟方面的潜在推动作用。

王老师的报告为与会者们展示了视频生成领域的发展历程,让他们对多模态生成模型面临的挑战和未来的发展方向有了更清晰的认识。与会者们对视频生成的启发和改进方面进行了深入的讨论,并对高效、可控的多模态生成算法和其在不同领域的应用展示表示兴趣。这次报告为多模态生成模型的发展提供了新的思路和方向,并为相关研究和实践提供了启示。

最后,王老师还向与会者们分享了他在从事科研工作中总结的宝贵经验,并将其以文档形式分享给了大家:https://www.yuque.com/xinntao/nm1yxs/teq1y5dqiivvv9lr

图5. 视频生成的初探及其可控性研究