时间:2022年5月5日(周四)09:30
地点:望江校区基础教学楼B座318实验室
研读成员:姜磊、杨涛
研读内容:
Part1
分享者:姜磊
分享内容:
[1]Simonyan, K., & Zisserman, A. (2014). Two-Stream Convolutional Networks for Action Recognition in Videos. NIPS.
[2]Wang, W., Xie, E., Li, X., Fan, D., Song, K., Liang, D., Lu, T., Luo, P., & Shao, L. (2021). Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 548-558.
论文简介:
[1]尽管卷积神经网络(CNNs)在计算机视觉领域取得了巨大的成功,但本文研究了一种更简单、无卷积的骨干网,用于许多密集预测任务。与最近提出的专门为图像分类设计的Vision Transformer(ViT)不同,我们引入了Pyramid Vision Transformer(PVT),它克服了将Transformer移植到各种密集预测任务的困难。与目前的技术相比,PVT有几个优点:(1)不同于ViT会产生低分辨率的输出并造成大计算量与内存成本,PVT不仅可以训练图像的密度分区以实现高输出分辨率,这对密集预测是很重要的,而且使用了一种逐渐缩减的金字塔结构来减少大特征图的计算量。(2)PVT继承了CNN和Transformer的优点,使其成为在没有卷积的情况下进行视觉任务的统一主干,可以使用PVT直接替代CNN主干。(3)我们通过大量的实验验证了PVT,表明它提高了许多下游任务的性能,包括对象检测、实例和语义分割。
例如,在具有相当数量的参数情况下,PVT+RetinaNet在COCO数据集上实现了40.4 AP,比ResNet50+RetinNet (36.3 AP)多4.1个绝对AP。我们希望PVT可以作为像素级预测可替代的和有用的骨干,并促进未来的研究。
[2]我们研究了如何使用深度卷积神经网络去做视频里的动作识别。这个工作的主要难点就是如何在视频中同时学到两种信息:一是图像信息(appearance from still frames,包括物体的形状、大小、颜色等),二是物体之间的移动信息(motion between frames,可以想象成时序信息)。这两种信息对于视频理解非常重要!作者就是想把之前最好的手工特征中蕴含的思想带入到深度学习这种数据驱动的框架中。
本文有三点贡献:1. 提出了一个双流网络(Two-Stream Convolutional Networks),它是由空间流网络和时间流网络组成的;2. 证实了在即使只有少量的训练数据的情况下,一个只在光流数据上训练的神经网络也能取得很好的效果;3. 为了弥补训练数据上的不足,作者提出使用multitask learning的方法在两个数据集上去同时训练一个骨干网络,可以增加数据量,而且网络在两个数据集上的性能都很不错。
在UCF-101和HMDB-51两个数据集上分别训练和评估,效果和之前最好的方法打成平手,而且比之前用深度学习做视频理解的方法效果好一大截!(这是本文想说的重点,侧面也证明了motion信息对视频理解的重要性。)
Part2
分享者:杨涛
分享内容:
[1] Wang Q, Xu Z, Chen Z, et al. Visual analysis of discrimination in machine learning[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 27(2): 1470-1480.
论文简介:
[1]在犯罪预测和大学录取等关键应用中越来越多地使用自动化决策,这引发了对机器学习公平性的质疑。我们如何判断不同的待遇是合理的还是歧视性的?在本文中,我们从视觉分析的角度研究机器学习中的歧视,并提出了一种交互式可视化工具 DiscriLens,以支持更全面的分析。为了揭示有关算法歧视的详细信息,DiscriLens 基于因果建模和分类规则挖掘识别了一组潜在的歧视项集。通过将扩展的欧拉图与基于矩阵的可视化相结合,我们开发了一种新颖的集合可视化,以促进判别项集的探索和解释。一项用户研究表明,用户可以快速准确地解读 DiscriLens 中的视觉编码信息。用例表明,DiscriLens 在理解和减少算法歧视方面提供了信息指导。