PRCV2021-Day1

12月19日上午,第四届中国模式识别与计算机视觉大会(PRCV 2021)在广东省珠海市海泉湾维景国际大酒店隆重举行。本次会议由中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)、中国计算机学会(CCF)和中国自动化学会(CAA)联合主办;由北京科技大学、北京交通大学和北京邮电大学共同承办,中山大学、清华大学协办。会议汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果,提供精彩的学术盛宴。

图1:参会合影留念

讲习班1:从生物视觉到计算机视觉

本次会议开设“从生物视觉到计算机视觉”主题讲习班,为视觉神经科学及人工智能和计算机视觉领域的跨学科交叉提供一个相互交流的机会,从类脑智能的角度为基于视频或图像的智能环境感知技术和计算机视觉应用提供新思路。生物视觉计算模型不仅对于帮助阐明脑功能,而且对于促进计算机视觉应用的生物智能化均具有重要意义。面对复杂多变的非结构化环境,以智能环境感知为基础的众多工程应用(如目标检测、识别与跟踪等)有望从以自适应为核心的生物视觉机理中寻求启示和高效解决方案。

讲者:张嘉漪(复旦大学)

报告题目:成像视觉通路的结构和功能

张老师在报告过程首先对视觉系统进行了基本介绍;然后向观众引出一个问题:我们到底是如何看到外面丰富多彩的世界的,并对其过程进行大致介绍;并且讲者列举了许多现实生活中视觉对人脑具有“欺骗性”的事例,反映出视觉系统受环境影响较大;最后讲者表明视觉神经科学发展已久,我们对视觉系统的认识也在持续走向深入,但仍然有很多问题有待探索。

图2:成像视觉通路的结构和功能

讲者:邢大军(北京师范大学)

报告题目:中、高级视觉的生物学结构和机理

邢老师在报告中,首先对大脑中的视觉皮层进行了简单地介绍,并且认为灵长类的大脑是人类目前已知最复杂的生物系统,因此探索和理解其工作原理及其神经机制是人类面临的最大挑战之一;然后对中高级视觉功能进行了介绍;最后对一些视觉现象进行了实例列举,提出目前人工智能所面临的问题是对于事物并没有产生意识和认知的过程。

图3:中、高级视觉的生物学结构和机理

讲者:李永杰(电子科技大学)

报告题目:生物视觉的前端通路的计算模型与应用

李老师在报告中,首先介绍了课题研究背景,生物视觉信息具有复杂性;然后从视网膜机理到图像增强处理,从初级视皮层肌理到基本特征检测,从初/中级视皮层肌理到场景分析进行介绍;最后进行总结,视网膜层次的信息加工为实现复杂信息感知提供了高质量信息输入。

图4:生物视觉的前端通路的计算模型与应用

讲者:杨开富(电子科技大学)

报告题目:视觉引导注意的计算模型与应用

杨老师在报告中,首先介绍了“什么是视觉注意力”引导注意力模型,引出“为什么需要注意力”,为了使人更好地处理视觉信息;然后从生物的角度简单介绍视觉注意力的计算理论;另外杨老师对基于引导的注意力模型进行了介绍;最后杨老师对视觉注意力模型进行了总结。综上,从认知计算的角度,建立视觉显著性的计算理论,有助于探索视觉认知的计算机理;基于真实图像的视觉注意计算理论,更有利于启发面向计算机视觉应用的视觉注意模型;以引导视觉搜索为基础,建立物理规则约束(引导)的视觉注意模型,为提高计算机视觉算法稳定性提供新思路。

图5:视觉引导注意的计算模型与应用

讲习班2:深度学习大模型

讲者:张兆翔(中科院自动化所)

报告题目:视觉目标检测大模型GAIA —面向行业的视觉物体检测一站式

伴随着深度学习的兴起,计算机视觉领域的诸多任务如物体检测、物体分割等取得长足进展,但是单一模型应用到特定领域和任务时还是存在迁移困难、数据少、定制性差等问题。本报告介绍课题组最新的进展GAIA模型。该模型能够针对不同任务和边缘计算,自动提供定制化模型,具有较好的理论价值和应用前景。

张老师在报告过程中,首先提出了孤立式物体检测存在的局限性,然后介绍了团队提出的GAIA模型,用户可轻松获得不同硬件环境下的可直接用于部署的目标检测模型,最后张老师表示该模型是以目标检测为基础,并期望更多的学者和用户共同维护GAIA的迭代,参与到GAIA社区中。

图6:孤立式物体检测存在的局限性

讲者:叶齐祥(中国科学院大学)

报告题目:Conformer: 全局表示与局部特征融合的基网模型

卷积运算善于提取局部特征,却不具备提取全局表征的能力。为了感受图像全局信息,CNN必须依靠堆叠卷积层,采用池化操作来扩大感受野。Visual Transformer的提出则打破了CNN在视觉表征方面的垄断。得益于自注意力机制,Visual Transformer(ViT、Deit)具备了全局、动态感受野的能力,在图像识别任务上取得了更好的结果。但是受限于的计算复杂度,Transformer需要减小输入分辨率、增大下采样步长,这造成切分patch阶段损失图像细节信息。叶老师所在团队提出了Conformer基网模型,将Transformer与CNN进行了融合。Conformer模型可以在不显著增加计算量的前提下显著提升了基网表征能力。实验验证了Conformer做为视觉大模型的潜力,在ImageNet21K预训练测试的设定条件下,140M参数的Conformer模型ImageNet1K的Top-1分类性能达到了87%以上。

除了对Conformer基网模型的介绍以外,叶老师在报告过程中向同学们传授“如何进行关于CNN/Transformer的研究”的经验,需要熟悉了解基础变换(傅立叶变换、小波变换)和基础网络框架(卷积、Trans-),最后在座专家对“大模型”训练存在的性能问题和先进性进行了讨论。

图7:Conformer: 全局表示与局部特征融合的基网模型

讲者:程明明(南开大学)

报告题目:大规模图像的多粒度目标检测

从图像中快速准确地获取目标信息是计算机视觉的核心任务。鲁棒的目标检测与信息提取需要对不同粒度的信息进行高效的整合。本报告从多层次卷积特征融合、基于短连接的多尺度融合与深度监督、基于分层递进残差设计的层内多尺度特征表达、时序多层次信息提取、霍夫空间度尺度检测、多模型高效融合、多图像联系分析等角度入手,系统地介绍南开大学媒体计算团队在边缘检测、显著性物体检测、图像分类、语义分割、物体检测、关键点估计、视频动作分割,语义线检测、行人计数、年龄估计、图像超分辨率等领域的最新研究进展。同时,本次报告也从实例、图像、以及整个数据集三个粒度出发,对大规模图像集合进行联合分析,以减少图像理解算法对大规模精确标注的依赖。

报告过程中,程老师指出结合通用知识减少对任务相关标注数据地依赖,并且提出了一种类别无关的基本属性关于显著性检测技术的思考:(1)显著性检测只是简单的两类语义分割吗?(2)类别信息在显著性检测中起到多大作用?(3)预训练模型是必须的吗?最后指出,设计一种超轻量级的模型研究语义信息在SoD中的作用是不依赖于预训练的小模型。

汇报结束后,有嘉宾对程老师进行提问:是不是有了大模型以后,就不需要这么多的精细的设计,计算机视觉就变得这么简单了?程老师进行了精彩的回答:首先羡慕其他实验室能够有很大的算力去做大模型这个事情,但是我认为CV还没有到达收敛的阶段。不同的单位有不同的实际情况,一方面我们需要去探索大模型有多大的潜力,另一方面我们要探索大模型哪些是必要的哪些是不必要的。

图8:深度神经网络发展

大会特邀报告1

讲者:左旺孟 教授(哈尔滨工业大学)

报告题目:Learning Deep Image Restoration Network: From Full- and Self- Supervision to Non-Ideal Supervision

目前深度学习在图像复原中的成功往往依赖于大规模成对的训练数据。然而,全监督数据的获取往往十分困难,无监督和自监督学习因而成为更为可行的替代方法。因此,左老师在报告中首先介绍自监督图像去噪,基于深度上下文模型实现图像噪声估计模型和去噪模型的联合学习。在此基础上介绍图像去噪模型的无监督自适应,利用伪ISP和伪RawRGB噪声模型使得深度去噪网络能够自适应地调整应用于测试图像。最后,针对真实图像去噪、图像去模糊/超分辨等问题,虽然不能获得理想的监督信息,但往往能够获得替代的非理想监督信息,左老师以人脸正面化和Raw图ISP和超分为例,介绍了颜色不一致和空域未配准情况下深度网络的有效学习方法。

报告结束嘉宾对左老师的报告内容进行了提问:想在手机端设计较小的超分模型,在网络结构和技术层面,是否有好的推荐?左老师对此进行了回答:理论上,backbone采用Mobilenet结构,中间采用NAS、剪枝、量化等技巧,可能可以部署到手机端。

图9:《Learning Deep Image Restoration Network: From Full- and Self- Supervision to Non-Ideal Supervision报告大纲