时间:2024年10月26日(本周六) 09: 30
地点:望江校区基础教学楼B座318实验室
分享者:蒋林呈、杨璐歌
Part1
分享者:蒋林呈
分享内容:
[1] Zhu, Jiayi, Xuebin Qin, and Abdulmotaleb Elsaddik. "Dc-net: Divide-and-conquer for salient object detection." Pattern Recognition 157 (2025): 110903.
[2] Xu, Zunnan, et al. "Bridging vision and language encoders: Parameter-efficient tuning for referring image segmentation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
论文简介:
[1] 显著性目标检测是一项从图像中分割出视觉上最具吸引力部分的任务,常用于 3D 建模、图像编辑、艺术设计等。然而,现有方法存在效率低、细节损失等问题。本文提出了一种新的显著目标检测方法DC-Net,通过引入 Divide-and-Conquer(分而治之)的思想,将任务分解为多个子任务,并行处理以提高效率。DC-Net 采用双编码器结构,分别学习不同的边缘和位置信息,然后在解码器中通过两级残差嵌套-ASPP(ResASPP2)模块融合特征,生成最终的显著性图。ResASPP2 能够在保持高分辨率的同时捕捉多尺度特征,从而提高检测精度。此外,DC-Net 结合并行加速技术,实现了更高的推理速度。实验结果表明,DC-Net 在多个基准数据集上均取得了优异性能,速度可达60FPS,相较于当前主流方法具有更高的效率和精度。
[2] 由于现有的视觉-语言模型在多模态任务中存在参数效率低的问题,尤其在引用图像分割任务上难以实现轻量化且高效的调整。尽管已有一些方法通过微调预训练模型提高性能,但这些方法通常需要大量参数调整,无法在大规模预训练模型上实现高效的迁移。为了解决这个问题,本文提出了一种名为ETRIS的高效参数调整框架,通过引入新的适配器模块 Bridger,将视觉和语言编码器的多模态交互提升到新的水平。Bridger不需要预训练,可以无缝集成到已有模型架构中,极大地减少了需要调整的参数量,同时保持甚至超越了全量微调的性能。此外,ETRIS设计了一个轻量级的任务特定解码器,用于进一步对视觉和语言特征进行层次和全局对齐。在 RefCOCO等基准数据集上的实验表明,ETRIS仅调整 1.61% 到 3.38% 的参数量,就达到了与全量微调相当的性能,展示了在大规模视觉-语言模型上的高效迁移能力。
Part2
分享者:杨璐歌
分享内容:
[1] J. Chen, Q. Huang, C. Wang and C. Li, "SenseMap: Urban Performance Visualization and Analytics Via Semantic Textual Similarity," in IEEE Transactions on Visualization and Computer Graphics, vol. 30, no. 9, pp. 6275-6290, Sept. 2024, doi: 10.1109/TVCG.2023.3333356.
[2] Y. Zhang, G. Zheng, Z. Liu, Q. Li and H. Zeng, "MARLens: Understanding Multi-Agent Reinforcement Learning for Traffic Signal Control Via Visual Analytics," in IEEE Transactions on Visualization and Computer Graphics, doi: 10.1109/TVCG.2024.3392587.
论文简介:
[1] 随着城市人口的增长,有效获取城市绩效指标(如宜居性和舒适度)因其显著的社会经济影响而变得越来越重要。虽然兴趣点(POI)数据已被用于各种基于位置的服务应用,但其在城市绩效分析方面的潜力仍未得到开发。在本文中,我们介绍了SenseMap,这是一种利用POI数据作为城市功能的语义表示来分析城市绩效的新方法。我们通过计算我们构建的语料库上的语义文本相似性来量化poi对不同城市绩效指标的贡献。我们提出了语义自适应核密度估计,该估计考虑了poi在不同交通分析区域的影响区域和语义贡献,以生成度量的语义密度图。我们设计并实现了一个功能丰富的实时可视化分析系统,供用户探索其周围环境的城市性能。通过人的判断和参考数据的评价,证明了该方法的可行性和有效性。使用场景和用户研究展示了我们系统的能力、可用性和可解释性。
[2] 交通拥堵问题对全球城市的发展构成了重大障碍。解决这一问题的一个有希望的解决方案是智能交通信号控制(TSC)。近年来,利用强化学习(RL)的TSC策略引起了研究人员的关注。然而,对这些模型的评估主要依赖于奖励和排队长度等固定指标。这种有限的评估方法只提供了模型决策过程的狭隘视角,阻碍了其实际实施。此外,有效的TSC需要在多个交叉点协调行动。现有的可视化分析解决方案在应用于多智能体设置时存在不足。在本研究中,我们深入研究了多智能体强化学习(MARL)中可解释性的挑战,特别是在TSC的背景下。我们提出了MARLens,一个专门用于理解基于marl的TSC的可视化分析系统。我们的系统为RL和TSC研究人员提供了一个多功能平台。它使他们能够从不同的角度探索模型的特征,揭示其决策过程,并揭示不同主体之间的相互作用。为了方便快速识别关键状态,我们设计了多个可视化视图,并辅以交通模拟模块,允许用户重播特定的训练场景。为了验证我们提出的系统的实用性,我们提出了三个全面的案例研究,通过访谈结合了领域专家的见解,并进行了用户研究。这些共同努力强调了MARLens在增强我们对基于marl的TSC系统的理解方面的可行性和有效性,并为制定更明智、更有效的交通管理战略铺平了道路。