2021年秋季学期视觉计算实验室第五周论文研读预告

时间:2021年09月23日(本周四) 09 : 30

地点:望江校区基础教学楼B座318实验室

研读成员:高承睿 程俊龙

Part1

分享者:高承睿

分享内容:

[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.

[2] Kirillov A, He K, Girshick R, et al. Panoptic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9404-9413.

论文简介:

[1] 作者提出了一种用于实例分割的简单、灵活且通用的框架。该方法有效地检测了图像中的物体,同时为每个实例生成一个高质量的分割掩膜,该方法被称为 Mask R-CNN。Mask R-CNN是在Faster R-CNN 上的扩展——在其已有的用于边界框识别分支上添加了一个并行的用于预测目标掩码的分支。Mask R-CNN的训练很简单,只是在Faster R-CNN的基础增加了少量的计算量,大约为5fps。另外,Mask R-CNN掩码能够更好地适用于其他任务,例如估计同一图片中人物的姿态,本文在COCO挑战中的3种任务(包括实例分割、边界框目标探测、任务关键点检测)种都获得了最好的成绩。在没有适用其他技巧的情况下,Mask R-CNN的表现超过了现有的单个模型,包括COCO 2016挑战赛的获胜模型。

图1 针对于实例分割的Mask R-CNN框图.


[2] 本文作者提出并研究了一项名为全景分割(PS)的任务。全景分割将语义分割和实例分割的典型任务统一起来。所提出的任务需要生成丰富而完整的连贯场景分割,这是迈向现实世界视觉系统的重要一步。尽管计算机视觉的早期工作解决了相关的图像/场景解析任务,但由于缺乏适当的度量标准或相关的识别挑战,这些任务目前并不流行。为了解决这个问题,作者提出了一种新颖的全景质量(PQ)指标,该指标以可解释和统一的方式捕获了所有类别(stuff和thing)的性能。使用所提出的指标,作者在三个现有数据集上对全景分割的人机性能进行了探究。

图2 数据集Cityscapes(左二)和ADE20k(右三)的全景分割结果.

Part2
分享者:程俊龙

分享内容:
[1] Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.
[2] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

论文简介:
[1]我们提出了一种用于图像分类的简单、高度模块化的网络架构。该网络是通过重复一个构建块来构建的,该构建块聚合了一组具有相同拓扑结构的转换。我们的设计形成了一个同质的多分支体系结构,只需设置几个超参数。这个策略提出了一个新的称之为“基数”(转换集的大小)的维度,它是深度和宽度维度之外的一个基本因素。在ImageNet-1K数据集上,即使在保持复杂性的限制条件下,增加基数也能够提高分类精度。此外,增加基数比增加容量时更深或更广更有效。在ImageNet-5K数据集集和COCO检测数据集上也显示出比ResNet更好的结果。

图1 ResNeXt的等效构建块

[2]人们普遍认为,成功训练深度网络需要数千个带注释的训练样本。本文提出了一种网络和训练策略,该策略依赖于数据增强的强大使用,以更有效地使用可用的注释样本。该架构由用于捕获上下文的收缩路径和可实现精确定位的对称扩展路径组成。这样的网络可以从很少的图像进行端到端的训练,并且在ISBI挑战中优于先前的最佳方法(滑动窗口卷积网络),用于分割电子显微堆栈中的神经元结构。此外,网络速度很快,分割512x512图像只需不到一秒。

图2 U-net 架构