2024年秋季学期视觉计算实验室第十二次论文研读预告

时间:2024年12月7日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:张键军、徐骏驰

Part1

分享者:张键军

分享内容:

[1] Abdul Hannan Khan, Mohammed Shariq Nawaz, and Andreas Dengel. Localized semantic feature mixers for efficient pedestrian detection in autonomous driving. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5476–5485, 2023.

[2] Zebin Lin, Wenjie Pei, Fanglin Chen, David Zhang, and Guangming Lu. Pedestrian de tection by exemplar-guided contrastive learning. IEEE transactions on image processing, 32:2003–2016, 2022.

论文简介:

[1] 自动驾驶系统在很大程度上依赖于底层感知模块,而感知模块必须具备高性能和高效率,才能实时做出精确决策。避免与行人相撞是任何自动驾驶系统的重中之重。因此,行人检测是此类系统感知模块的核心部分之一。目前最先进的行人检测器存在两大问题。首先,它们的推理时间较长,影响了整个感知模块的效率;其次,在行人较小且被严重遮挡的情况下,它们的性能较差。作者提出的本地化语义特征混合器(LSFM)是一种新颖的无锚行人检测架构。它使用作者新颖的超级像素金字塔汇集模块,而不是计算成本高昂的特征金字塔网络进行特征编码。此外,作者将基于 MLPMixer 的密集焦点检测网络用作轻量检测头,与现有方法相比,减少了计算工作量和推理时间。为了提高拟议架构的性能,作者调整并使用了混合增强技术,从而提高了性能,尤其是在小范围和严重遮挡的情况下。作者在成熟的交通场景行人数据集上对 LSFM 与最先进的方法进行了基准测试。所提出的 LSFM 在 Caltech、City Persons、Euro City Persons 和 TJU-Traffic-Pedestrian 数据集上达到了最先进的性能,同时平均减少了 55% 的推理时间。此外,LSFM 在行人检测史上首次超越了人类基准线。最后,作者进行了跨数据集评估,证明提出的 LSFM 能够很好地泛化到未见过的数据中。

Localized Semantic Feature Mixers(LSFM)中 SP3 颈部和 DFDN 头部的结构

[2] 行人检测的典型方法侧重于解决拥挤行人之间的相互遮挡,或处理行人的不同尺度。检测具有大量外观多样性(如不同的行人轮廓、不同的视角或不同的着装)的行人仍然是一项重要挑战。作者建议采用对比学习法来指导特征学习,而不是像大多数现有方法那样逐个学习这些不同的行人外观特征,从而使所学特征空间中不同外观的行人之间的语义距离最小化,以消除外观多样性,同时使行人与背景之间的距离最大化。为了提高对比学习的效率和效果,作者构建了一个具有代表性行人外观的示例字典作为先验知识,以构建有效的对比训练对,从而指导对比学习。此外,作者还进一步利用所构建的示例字典,通过测量行人建议与示例字典之间的语义距离,在推理过程中评估行人建议的质量。白天和夜间行人检测的大量实验验证了所提方法的有效性。

Exemplar-guided contrastive learning network(EGCL)的结构图

Part2

分享者:徐骏驰

分享内容:

[1] Jung S, Shin D H, Jeon H, et al. MoNetExplorer: A Visual Analytics System for Analyzing Dynamic Networks with Temporal Network Motifs[J]. IEEE Transactions on Visualization and Computer Graphics, 2023.

[2] Bernard J, Barth C M, Cuba E, et al. IVESA-Visual Analysis of Time-Stamped Event Sequences[J]. IEEE Transactions on Visualization and Computer Graphics, 2024.

论文简介:

[1] 基于不相交的时间间隔将动态网络划分为子集(即快照)是一种广泛使用的技术,用于理解网络的结构模式如何演变。然而,选择适当的时间窗口(即,将动态网络分割成快照)具有挑战性且耗时,通常需要采用试错方法来研究底层结构模式。为了应对这一挑战,我们推出了 MoNetExplorer,这是一种新颖的交互式视觉分析系统,它利用时间网络图案来提供窗口大小的建议,并支持用户直观地比较不同的切片结果。 MoNetExplorer 提供基于窗口大小的全面分析,包括(1)时间概述以识别结构信息,(2)时间网络主题组成,以及(3)基于节点链接图的细节,使用户能够识别和理解不同时间分辨率下的结构模式。为了证明我们系统的有效性,我们使用两个真实世界的动态网络数据集与网络研究人员进行了案例研究。我们的案例研究表明,该系统有效地支持用户获得对动态网络的时间和结构方面的宝贵见解。

MoNetExplorer界面概览

[2] 时间戳事件序列(TSEQ)是面向时间的数据,没有价值信息,将用户的注意力转移到探索时间事件发生上。 TSEQ 存在于应用领域,例如睡眠行为、地震余震和股市崩盘。领域专家面临四个挑战,他们可以使用交互式和可视化数据分析方法。首先,TSEQ 的序列和事件数量可能很大,通常会导致数百万个事件。其次,领域专家需要经过验证的指标和功能来识别有趣的模式。第三,在识别出有趣的模式后,领域专家将这些模式置于情境中以促进意义建构。最后,领域专家寻求通过数据简化和机器学习支持来降低数据复杂性。我们推出了 IVESA,一种用于 TSEQ 的可视化分析方法。它支持以序列和事件的粒度对 TSEQ 进行分析,并得到指标和特征分析工具的支持。 IVESA 具有多个链接视图,支持概述、排序+过滤、比较、按需详细信息和元数据关系查找任务,以及通过特征分析、交互式聚类、过滤以及主题检测和简化来简化数据。我们通过三个案例研究和一项由六名领域专家使用六个不同数据集和应用程序进行的用户研究来评估 IVESA。结果证明了 IVESA 在具有多达 1,000,000 个事件的应用程序和案例中的可用性和通用性。

IVESA界面概览