PRCV 2023 - Day1

2023年10月13日至10月15日，第六届中国模式识别与计算机视觉大会（The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023）在厦门举办。PRCV 2023由中国计算机学会（CCF）、中国自动化学会（CAA）、中国图象图形学学会（CSIG）和中国人工智能学会（CAAI）联合主办联合主办，多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办，厦门市未来显示技术研究院协办，是国内顶级的模式识别和计算机视觉领域学术盛会。视觉计算实验室的五位小伙伴也来到了会议现场，学习模式识别与计算机视觉领域的最新理论和技术成果，感受现场浓厚的学术交流氛围。

10月13日的会议安排共有四个分会场，分别聚焦于多模态语言大模型、AIGC-视觉生成、视觉大模型和高质量论文写作与发表四个不同的主题。实验室的五位小伙伴根据分会场的主题，结合自身的研究兴趣和基础，分别选择了三个不同的分会场聆听报告，涵盖了多模态语言大模型、视觉大模型、高质量论文写作与发表等方面，在接触大模型的前沿知识与技术的同时，学习高质量学术论文的写作与发表技巧。

分会场1 —— 多模态语言大模型

讲习班：多模态语言大模型

讲者：乔宇（上海人工智能实验室）、周奕毅（厦门大学）、王兴刚（华中科技大学）

乔宇、周奕毅和王兴刚三位教授作为本次大会讲习班的主讲人，为参会者介绍了多模态语言大模型的各个方面。他们从不同的角度出发，为我们呈现了一场精彩的演讲。

乔宇老师重点介绍了上海人工智能实验室在多模态语言模型领域的探索。他详细介绍了Meta-Transformer的设计思路，该模型通过统一学习无配对数据，能够理解多达12种模态信息。这项工作在多模态语言模型领域具有重要的意义，并为我们展示了上海人工智能实验室在该领域的前沿研究成果。

接下来，周奕毅老师以自然语言处理的发展史为切入点，介绍了一些新颖的多模态语言大模型，如VisualChatGPT、PaLI和DALL等。这些模型让参会者全面了解了最近多模态语言大模型的发展情况和创新角度。周老师还借助科技创新2023——“新一代人工智能”重大项目的背景，向大家介绍了厦门大学自主研发的多模态基础大模型MindSource。他详细解释了该模型每个部分的研究动机、主要贡献、方法描述和实验结果，让听众对该模型有了更深入的了解。

最后，王兴刚老师以实验室自研的视觉大模型EVA为出发点，讲述了基于掩码学习的自监督模型的发展情况，并详细介绍了构建EVA的细节情况以及后续的EVA-CLIP工作。他的演讲使我们对基于掩码学习的自监督模型有了更清晰的认识，并展示了实验室在视觉大模型领域的研究成果。

这三位教授的演讲涵盖了多模态语言大模型的不同方面，为参会者提供了深入了解和探索该领域的机会。他们的研究成果和创新思路激发了听众的思考，并为未来的研究和应用提供了有益的启示。

分会场3 —— 视觉大模型

报告题目：大模型时代下的三维视觉

讲者：欧阳万里（上海人工智能实验室）

最近，大模型在图像和自然语言处理中取得了显著的成绩，GPT 和图像生成的工作已经大大提高我们的工作效率。然而大模型在 3D 视觉中的研究还处于比较初步的阶段。欧阳老师首先围绕大模型与 3D 视觉，介绍了上海人工智能实验室在 3D 大模型中的进展；然后结合自身研究探讨如何构建统一的 3D 多模态数据集，如何进行大规模 3D 预训练，以及大模型有关的下游适配和下游任务，最后谈论了 3D 视觉在大模型时代下的机遇与挑战。

报告题目：视频理解的基础模型与基准数据

讲者：王利民（南京大学）

视频理解是计算机视觉领域研究热点与难点，如何构建通用视频基础模型已经成为其重要性能增长点，具体研究内容涉及到视频主干网络构建、视频模型预训练方法、视频训练和评测数据集构建等等。在本次报告中间，王老师主要介绍了南京大学媒体计算机课题组和上海人工智能实验室通用视频团队在视频理解基础模型与基准数据方面的系列工作。具体包括：1. 面向单模态视频理解任务的预训练模型 VideoMAE v1 & v2；2. 面向多模态视频理解任务的预训练模型UMT 和 VideoChat；3. 面向多模态视频理解的大规模预训练数据集 InternVid; 4. 面向体育运动场景的视频分析评测基准MultiSports和SportsMOT。最后对视频理解基础模型的发展趋势提出展望与思考。

报告题目：基于注意机制的视觉基础模型

讲者：侯淇彬（南开大学）

注意机制在计算机视觉领域扮演重要角色。侯老师的本次报告以视觉基础模型为背景，从空间注意机制、通道注意机制以及自注意机制等多个角度回顾近年来注意机制的发展，并介绍了注意机制中的其他种类，比如Visual Attention Network（VAN）、多尺度卷积注意力（SegNeXt）等。最后对注意机制未来的发展及其在视觉任务中的应用做出展望。

报告题目：文心·CV大模型VIMER：算法和应用

讲者：王井东（北京百度网讯科技有限公司）

王老师站在百度网讯科技开发人员的角度，其报告主要内容包括百度文心 ·CV 大模型 VIMER 以数据为中心的算法和应用。首先，介绍自监督表征学习算法 Context Autoencoder（CAE）算法及其推广。然后，讲述基于 CAE的工业视觉大模型、OCR 文字识别大模型、人体大模型等。最后，分享图文对比预训练大模型在自动驾驶数据挖掘中的应用和基于多任务学习的交通感知大模型。

分会场4 —— 高质量论文写作与发表

报告题目：论文常见低级错误简析

讲者：张军平（复旦大学计算机科学技术学院）

由于这场报告的听众大部分是在校学生，张老师从科研学者、博士生导师和审稿人的角度，对论文常见低级错误进行了简析并提出解决办法。研究生初次写论文时，常出现大量低级错误，它严重影响了对论文实际质量的评价。张老师在本次报告中，分析了集重常见的低级错误，包括图表、格式、排版、公式、引用等问题，以及相应的解决方案。张老师期望通过此报告，能帮助研究生们提高论文的质量。我们也从中学习到了许多写论文时难以注意到却很重要的小细节，在今后写论文时规避。

报告题目：AI论文写作123

讲者：李玺（浙江大学）

李老师在这场报告中分享的是AI方向学术论文的写作方法，在撰写AI领域的学术论文时的基本步骤和需要注意的写作要点。主要分为三个部分：如何想Idea、如何做实验和如何写论文，全面地介绍了一篇AI论文的完整写作流程。

报告题目：同行评议退稿常见问题

讲者：陈秀妍（《中国图象图形学报》编辑部）

陈老师基于《中国图象图形学报》的真实案例，介绍同行评议退稿中关于创新点、摘要、引言、实验、参考文献等方面最常见的问题和不足，为大家撰写论文提供参考和借鉴。

Panel: 高质量论文写作和发表

讲者：吴小俊（江南大学）、高会军（哈尔滨工业大学）、张军平（复旦大学）、李玺（浙江大学）、程明明（南开大学）、章国锋（浙江大学）

panel环节是所有报告结束的最后一个环节，参与嘉宾除了上述报告提到的嘉宾以外，南开大学的程明明教授也被邀请参与。panel环节主要围绕的主题是补充高质量论文写作与发表过程中容易遇到的问题，比如论文投稿之后，会议论文的rebuttal和期刊论文的response letter该如何写才能更好。在这个问题上，程明明教授指出rebuttal和response letter中的问题意味着作者与审稿人之间的认知偏差，可以分为两类：审稿人的理解错误和审稿人认为贡献不够大，并深入浅出地传授了如何应对这两类问题的rebuttal和response技巧。

Navigation

Tag list

PRCV 2023 - Day1

分会场1 —— 多模态语言大模型

分会场3 —— 视觉大模型

分会场4 —— 高质量论文写作与发表