VALSE 2022-day2

报告1:深度连续学习

讲者:洪晓鹏(哈尔滨工业大学)

尽管深度学习在很多应用上都取得了成功,但大量研究表明,当对新的任务或类别进行学习时,深度神经网络往往会覆盖过去所学的知识,从而导致模型在历史任务上的性能严重下降,产生“灾难性遗忘”现象。因此,研究连续学习的理论、方法与技术,使深度学习模型可以像人类一样学习,在动态变化的环境中不断学习新知识的同时,避免灾难性遗忘旧知识,实现模型的可持续学习,是一个开放并极具挑战的科学问题,也是新一代人工智能系统的必备技能之一。洪教授重点介绍该领域的基础知识和代表性工作,并探讨最新研究进展、未来发展方向和典型应用。

洪教授针对深度神经网络在学习新任务新知识时的“灾难性遗忘”困境,围绕“记忆”的形式化,“记忆”的重要性质,以及“记忆”重要性质如何保持等问题,介绍了课题组在深度网络灾难性遗忘抑制方面的工作,并重点介绍学习与记忆相融合的深度增量学习框架,探讨了拓扑保持网络的使用、拓扑保持正则项的设计和增量学习的实验设置等内容。除此以外,洪教授还对该领域其他团队工作进行了深入浅出的介绍,使在座学者们受益匪浅。

图1:类别连续学习研究的基本分类

报告2Computationally Efficient Vision Transformers

讲者:沈为 (上海交通大学)

视觉Transformer已经开始彻底改变计算机视觉领域。 由于它们对远程依赖关系建模的强大能力,它们在各种计算机视觉任务中的性能优于 CNN。 然而,视觉Transformer的优势也有代价:它们的核心模块,即自注意力,对输入序列长度具有二次复杂度。 在本次演讲中,沈教授将介绍了他们最近关于如何通过设计局部窗口注意机制来实现计算效率高的视觉Transformer的工作:1)具有自适应扩张窗口的视觉Transformer,它作为强大的主干,并在各种典型的视觉任务中实现卓越的性能 ; 2) 专为人物交互检测而设计的具有不规则窗口的视觉Transformer。

通过沈教授的报告引发了我们对“什么是计算机视觉学科研究最核心的问题”的思考。计算机视觉就是利用摄像机和计算机代替人类视觉:对同样的视觉输入信号(图像、视频),计算机视觉须与人类视觉得到同样的识别与理解结果。随着大数据时代的到来,人工智能被广泛地应用到社会生活的各个方面。作为其重要的组成部分,计算机视觉已经迎来了它最好的发展时机。

图2:HIO检测

报告3视频情感内容分析

讲者:王上飞(中国科学技术大学)

随着便携式摄像设备的普及,以及优酷、哔哩哔哩等视频网站的蓬勃发展,视频已经成为人们交流娱乐的重要媒介。视频在传播信息的同时,无可避免地影响着观众的情感状态。因此,视频的情感内容分析研究已成为近年来的研究热点。视频情感分析研究可以分为两种:直接标注(direct tagging)和隐式标注(implicit tagging)。前者侧重于建立视频内容和情感词之间的直接映射关系;而后者则通过对用户观看视频时的各种生理和行为反应的分析,识别用户的情感状态,从而间接地对视频进行情感分类和识别;本报告介绍了视频情感内容分析的研究现状和最新进展。

目前大多数的研究把表情识别看成了一个模式识别的问题,但表情实际与人的情绪有关。如果能够从人的情绪方面去建模,并把它加入到算法当中,可能会对当前的情感计算的研究提供新的思路。

图3:数据集视频类型

报告4BEVFormer: 一种新的自动驾驶环视感知方案

讲者:代季峰清华大学

随着智能驾驶落地应用场景不断延伸,系统信息表达的准确度要求进一步提升。一个合格的智能驾驶系统,需要准确表示包括道路布局、车道结构、道路使用者等元素组成的周围环境。然而,物体的距离、场景的深度信息在2D 感知结果上并不能得到有效呈现。这些信息才是智能驾驶系统对周围环境进行正确判断的关键。因此,3D 场景感知才是智能驾驶视觉感知的优选。最近,基于多视角摄像头的3D目标检测在鸟瞰图下的感知(Bird's-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面,将不同视角在 BEV 下统一与表征是很自然的描述,方便后续规划控制模块任务;另一方面,BEV 下的物体没有图像视角下的尺度和遮挡问题。如何优雅地得到一组BEV下的特征描述,是提高检测性能的关键。

其团队提出BEVFormer 环视感知的新框架,通过使用时空注意力机制学习用以支撑多种自动驾驶任务的鸟瞰图视角下的环境表征。其团队提出的 BEVFormer 网络架构包含三个关键模块:(1)BEV Queries:用于查询得到 BEV 特征图;(2)跨空间注意力:用于融合多视图特征;(3)时序自注意力:用于融合时序 BEV 特征。

总体而言,BEVFormer通过使用预定义的格栅化的鸟瞰图查询来与时间和空间特征进行交互,从而获取时空信息。为了聚合空间信息,设计了一种空间交叉注意力机制,每个鸟瞰图查询在相机视角下的相关区域提取空间特征。对于时序信息,提出时序自注意力机制从历史鸟瞰图特征中获取所需时序特征。在nuScenes数据集上达到了56.9 % NDS,比之前的最好效果高了9.0% NDS。

图4:BEVFormer使用场景