PRCV2021-day3

12月21日，PRCV2021大会最后一天议程。今日大会分为三个主旨报告，两个特邀报告和四个专题论坛。此外，大会邀请多位同学分享了竞赛项目的解决方案。

主题报告1

报告人：徐波（中国科学院自动化研究所）

报告题目：三模态基础大模型：探索通向更通用人工智能的路径

徐波老师的研究重点围绕听觉模型、类脑智能、认知计算及博弈智能等进行研究探索。本次报告徐老师首先介绍了近年来人工智能的发展，他将人工智能分为通用AI和专用AI两个发展阶段。目前专用AI落地的痛点主要包括无法获取高质量标签、缺乏复合型人才、周期长、成本高和场景信息丢失等。接着，徐老师引出了从专用AI转向通用AI的话题，这一转变需要持续创新发展，并为我们详细讲解了首个图-文-音三模态大模型“紫东太初”。该视觉模型将视觉、文本、语音不同模态通过各自编码器映射到统一语义空间，利用多头自注意力机制学习模态之间的语义关联以及特征对齐，形成多模态统一知识表示；既可以实现跨模态理解，还能实现跨模态生成，同时做到理解和生成认知能力的平衡；此外，团队提出了基于词条级别、模态级别以及样本级别的多层次、多任务自监督学习统一框架，对更广泛、更多样的下游任务提供模型基础支撑，并特别地实现了通过语义网络以图生音、以音生图的功能。最后，徐老师认为交叉融合是通用人工智能的发展趋势。

主题报告2

报告人：张磊（香港理工大学计算机学系）

报告题目：用于深度神经网络优化的梯度集中和特征梯度下降

张磊老师的研究兴趣包括计算机视觉、图像和视频分析和模式识别等。张老师从神经网络优化的角度出发，首先为大家介绍了神经网络优化的难点，包括优化问题，梯度消失/爆炸问题和局部最小化问题。随后，张老师围绕以上问题介绍了团队的两项工作：1）一种非常简单但有效的深度神经网络优化技术，即梯度中心化(GC)，它直接对权重的梯度进行操作。GC是将梯度向量集中到零均值，它可以加速训练过程、提高模型的性能以及微调预训练模型的兼容性。2）一种称为特征随机梯度下降（FSGD）的方法，用线性层的一步梯度下降来近似输出特征。FSGD只需要额外存储一个输入特征的二阶统计矩阵，并利用它的逆来调整权重的梯度下降。FSGD在分类任务中表现出比SGD更好的泛化性能。

主题报告3

报告人：Yoichi Sato（日本东京大学）

报告题目：从第一人称视角理解人类活动

目前可穿戴相机已作为现成产品广泛使用。由可穿戴相机拍摄的第一人称视频提供了精细人类行为的特写视图，还为了解佩戴相机的人的意图提供了重要线索。Sato老师在本次演讲中主要讨论为不同任务开发第一人称视觉方法的尝试，包括动作识别、未来人物定位和注视估计。

专题论坛1

报告人：黄铁军，余肇飞，张兆翔，赵地，李永杰，何晖光，诸葛飞，Peng Wang

报告题目：类脑视觉

各位汇报嘉宾从各自的角度对类脑视觉进行了讲解，内容丰富，层次递进。总的来说，类脑视觉是借鉴生物视觉系统的神经网络结构。虽然深度学习对静态图像和图像序列（视频）分类识别的性能已经很高，但在视觉主动性和灵活性方面还远远不及生物。随着生物成像技术的快速发展，人们对生物视觉理解的科学前沿正在快速推进，类脑视觉面临实现重大突破的机遇，有望赋予智能系统像人类一样感知环境、性能远超人类的真正视觉系统，从根本上重塑视觉信息处理的理论和技术体系。最后，李永杰老师总结到，端到端的深度网络模型难以承受复杂多变的场景，有效的视频图像增强处理是非常有必要的。此外，视觉选择注意源于大脑资源有限，但也催生了高效的信息加工模式；对于大视野相机和高性能计算机，选择性注意机理仍然是必要的。

专题论坛2

报告人：刘威（腾讯广告）、任玉强（腾讯优图）、王鑫涛（腾讯ARC Lab）

报告题目：腾讯视觉技术创新与行业应用

此次腾讯进行了以“科技向善”为主题的专题论坛，人类对AI技术的未知，仍然大于已知。腾讯表示善用AI的智慧，必须胜过日益强大的AI技术。首先刘老师对腾讯广告部门的核心技术与广告应用进行了简单介绍，并展现了广告行业中所采用的多技术融合；然后任老师对其所在团队的科研方向进行了大致介绍，学术成果包括：GaRD（CVPR 2021）、Grounded Image Captioning（MM 2021）等模型；最后王老师介绍了腾讯ARC Lab进行的各项学术探索，包括：人体抠图、半监督视频物体分割、视频物体实例分割、视频封面生成等，这些算法也很好地完成了技术落地。

专题论坛3

报告人：金一（北京交通大学）

报告题目：智能交通中的多模态视觉感知关键技术研究

金一老师首先介绍了中国交通发展的形式以及智能交通中的多模态视觉感知问题，其中业务场景包括交通基础设备智能化、智慧城市综合治理、公共安防区域示范、视频图像分析与识别以及新型犯罪侦查与追逃。关键问题的难点包括：异质数据难融合、学习样本难均衡和多模态数据难理解等。然后金一老师介绍了解决这些问题的研究内容和技术，包括基于弱监督学习的小样本数据增强、跨域迁移学习的目标再识别和多模态异构数据的高效特征提取和表示学习。最后金老师对智能交通未来发展的进行了展望。

专题论坛4

报告人：张宝昌（北京航空航天大学）

报告题目：可信学习与视觉目标检测

张宝昌老师首先介绍了可信深度学习的研究背景，他指出深度学习网络的重要特点就是可解释性差，常常被当作黑箱方法使用，并且因果推理是人类认知的普遍特征，再就是鲁棒性差，常常是基于独立同分布假设，复杂感知问题的假设并不适用。其次，张老师也介绍了可信学习-协同梯度下降算法，突出算法的因果关系、解耦和可解释性；然后，张老师介绍了业界常用的目标检测模型压缩方法。最后，张老师介绍了复杂场景下的目标检测存在的问题和常用的解决方案。

竞赛报告1

报告人：邓毓弸，张奇，李开宇。

报告题目：遥感图像智能解译技术挑战赛

在遥感图像的变化检测比赛中，邓毓弸，张奇，李开宇三位同学依次分享了自己从选择赛题到完成网络模型搭建的经验，为大家提供了良好的比赛思路，其中邓毓弸同学通过修改编码器网络，改善特征融合部分，同时优化了训练策略最终获得了比赛的第一名，他的编码器采用了基于Transformer的MIT作为特征提取器。张奇的方案同样是基于Transformer模型，第三名的李开宇使用了孪生多尺度U-Net方法。

竞赛报告2

报告人：邵世豪，蒋智文，方志娟。

报告题目：阿尔茨海默病分类技术挑战赛

阿尔茨海默病（Alzheimer Disease, AD）是一种不可逆的神经退行性疾病，基于脑影像探索AD的影像学标记对AD早期识别和及时预防具有重大临床意义。该比赛旨在提高基于影像的阿尔茨海默病早期识别准确性，推动和促进机器学习、深度学习等人工智能技术在脑科学、临床辅诊等智慧医学产业的发展和落地应用。大会提供了2600例脑影像特征数据，并将模型部署在华为云ModelArts平台进行判分排名。本次比赛的第一名是来自北京大学医学部崔庆华导师组的本科生邵世豪，他为我们介绍了基于多头注意力的按深度自适应多重感知机方法。另外，蒋智文和方志娟两位同学都介绍了基于支持向量机（SVM）的比赛方案，他们分别获得了比赛的第二名和第三名。

Navigation

Tag list

PRCV2021-day3