2023年春季学期视觉计算实验室交流报告&第十次论文研读预告

时间: 2023年5月19日(周五) 09 : 15

地点: 望江校区基础教学楼B座318实验室

分享者: 黄慧丽、姜磊、陈富秋

Part 1 交流报告

分享者:黄慧丽

个人简介:

黄慧丽,佐治亚理工大学计算科学工程(Computational Science Engineering, CSE)专业的二年级博士生,目前已通过博士资格考试(PhD Qualification Exam),计划四年毕业。已在同一所大学获得了计算机科学(Computer Science)的硕士学位。电子科技大学信息与软件工程学院2015级本科毕业生。

主要研究方向为计算机视觉和深度学习在自然灾害评估中的应用。在本科期间,荣获国家奖学金和人民特等奖学金等荣誉。从研究生阶段开始,多次担任CS7641/CS4641机器学习(Machine Learning)以及CSE6242数据和视觉分析(Data and Visual Analysis)的助教,协助老师完成课程作业设计、课程教学以及对学生的指导工作。

报告内容:

本次报告围绕深度学习与自然灾害评估中的应用,对目前的研究方向、主要研究内容和阶段性成果进行交流。同时,分享在研究生和博士生留学期间的学习和生活,通过自身经历,与大家分享个人留学生活当中的困难和收获,为境外深造的同学提供一些可供借鉴的经验与体会。

Part 2 论文研读

分享者:姜磊,2022级研究生

分享内容:

[1] Han K, Wang Y, Guo J, et al. Vision gnn: An image is worth graph of nodes[J]. arXiv preprint arXiv:2206.00272, 2022.

[2] Wei S, Ye T, Zhang S, et al. Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers[J]. arXiv preprint arXiv:2304.10716, 2023.

论文简介:

[1] 网络结构在基于深度学习的计算机视觉系统中起着关键作用。广泛使用的卷积神经网络和transformer将图像视为网格或序列结构,这种方式对于捕捉不规则和复杂对象缺乏灵活性。本文提出了将图像表示为图形结构,并引入一种新的Vision GNN(ViG)架构来提取视觉任务的图形级特征。本文首先将图像分成多个补丁,视为节点,并通过连接最近邻构建图形。基于图像的图表示,本文构建了ViG模型,以在所有节点之间进行信息转换和交换。ViG由两个基本模块组成:Grapher模块使用图卷积聚合和更新图信息,以及FFN模块使用两个线性层进行节点特征变换。本文构建了具有不同模型大小的等向性和金字塔体系结构的ViG。对图像识别和目标检测任务进行的大量实验证明了ViG架构的优越性。本文希望这项关于通用视觉任务的GNN开创性研究能够为未来的研究提供有益的灵感和经验。

图1 ViG网络架构

[2] 虽然视觉transformer(ViT)最近在各种计算机视觉任务中表现出了良好的结果,但它们的高计算成本限制了它们的实际应用。之前的一些方法通过修剪冗余令牌在性能和计算成本之间取得了良好的平衡。然而,修剪策略引起的错误可能会导致显著的信息丢失。本文的定量实验表明,修剪的令牌对性能的影响应该是明显的。为了解决这个问题,本文提出了一种新的联合Token Pruning & Squeezing模块(TPS),以更高的效率压缩视觉transformer。首先,TPS采用修剪来获取保留和修剪子集。其次,TPS通过单向最近邻匹配和基于相似性的融合步骤将修剪令牌的信息压缩到部分保留令牌中。与最先进的方法相比,本文的方法在所有令牌修剪强度下都表现出更好的性能。特别是在将DeiTtiny&small的计算预算缩小到35%时,与ImageNet分类基线相比,它将准确性提高了1%-6%。所提出的方法可以加速 DeiT-small的吞吐量,其精度超过DeiT-tiny4.78%。对各种transformer的实验表明了本文方法的有效性,而分析实验证明了本文对令牌修剪策略错误的更高的鲁棒性。

图2 TPS模块

分享者:陈富秋,2021级研究生

分享内容:

[1] Liu S, Weng D, Tian Y, et al. ECoalVis: visual analysis of control strategies in coal-fired power plants[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 29(1): 1091-1101.

[2] Wu J, Liu D, Guo Z, et al. Rasipam: Interactive pattern mining of multivariate event sequences in racket sports[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 29(1): 940-950.

论文简介:

[1] 提高燃煤电厂的效率有诸多好处。控制策略是影响燃煤电厂效率的主要因素之一。然而,由于电厂内部环境的复杂性和动态性,控制策略在海量传感器间的级联影响难以提取和评估。现有的人工和数据驱动的方法无法很好地支持控制策略的分析,因为这些方法耗时且不能随电厂系统的复杂性而扩展。针对上述问题,本文确定了三个挑战:a)从大规模动态传感器数据中提取控制策略;b)提供复杂电厂系统中传感器之间级联影响的直观可视化表示;c)提供控制策略对发电效率影响的时滞感知分析。通过与能源领域的专家合作,我们用ECoalVis解决了这些挑战,ECoalVis是一个新颖的交互式系统,供专家从历史传感器数据中提取燃煤电厂的控制策略并进行可视化分析。我们在真实世界的历史数据集上利用两种使用场景评估了所提出系统的有效性,并得到了专家的积极反馈。

图3 ECoalVis系统概览

[2] 网球和羽毛球等球拍运动的专家常常使用战术分析来洞察对手的打法。许多数据驱动的方法将模式挖掘应用于球拍运动数据(通常被记录为多变量事件序列),以揭示运动战术。然而,以这种方式获得的策略往往与专家根据领域知识推断出的策略不一致,这可能会使专家感到困惑。本文介绍了RASIPAM,一个球拍运动交互式模式挖掘系统,它允许专家将他们的领域知识整合到数据挖掘算法中,以互动的方式发现有意义的战术。RASIPAM由一个基于约束的模式挖掘算法组成,该算法响应专家的分析需求:专家以直观的自然语言提供寻找策略的建议,这些建议被转换为约束以运行算法。RASIPAM进一步引入了量身定制的可视化界面,允许专家将新战术与原始战术进行比较,并决定是否应用给定的调整。这种交互式工作流程迭代进行,直到专家对所有策略都感到满意为止。我们进行了定量实验,证明我们的算法支持实时交互,并以网球和羽毛球为例,邀请两名领域专家参与评估,证明了该系统的有效性和实用性。

图4 RASIPAM系统概览