时间:2024年9月7日上午09: 30
地点:望江校区基础教学楼B座318实验室
分享者:24级全体硕博士(内训-顶会论文分享)
Part1
分享者:张键军
分享内容:
[1] Y. Hu et al., “Planning-oriented Autonomous Driving,” in 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada: IEEE, Jun. 2023, pp. 17853–17862. doi: 10.1109/CVPR52729.2023.01712.
论文简介:现代自动驾驶系统的特点是按顺序执行模块化任务,即感知、预测和规划。为了执行多种多样的任务并实现高级智能,现有的方法要么为单个任务部署独立的模型,要么设计一个多任务范例,并配备独立的头。然而,这些方法可能存在累积错误或任务协调不足的问题。相反,本文认为应该设计并优化一个有利的框架,以实现最终目标,即规划自动驾驶汽车。为此,本文重新审视了感知和预测的关键组成部分,并对任务进行了优先排序,从而使所有这些任务都有助于规划。本文引入了统一自动驾驶(UniAD),这是一个将全栈驾驶任务整合到一个网络中的最新综合框架。它设计精巧,充分利用了每个模块的优势,并从全局角度为代理交互提供了互补的特征抽象。任务之间通过统一的查询接口进行交流,以促进彼此的规划。本文在具有挑战性的 nuScenes 基准上对 UniAD 进行了实例化。通过广泛的删减,本文证明了使用这种理念的有效性,在所有方面都大大优于以前的先进水平。
Part2
分享者:樊禧,姚和
分享内容:
[1] Cheng Z, Wei Q, Zhu H, et al. Unleashing the potential of SAM for medical adaptation via hierarchical decoding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 3511-3522.
论文简介:SAM应用在医疗图像上很难,需要大量的训练和医疗图像进行微调,或者需要高质量的提示。深度学习模型需要在大型注释数据集上进行广泛的训练,而这一资源在医学领域往往很难获得。SAM有显著的零样本学习能力,很适合应用在医疗图像上。但是因为训练都在自然图像上,在医疗图像上现在表现不是很好。本论文介绍的方法使SAM能够有效地集成学习到的医学先验,促进对有限样本的医学图像分割的自适应。为了提高模型的通用性和适应性,同时避免依赖于密集的专家知识和大量的训练资源。
Part3
分享人:周寅杰
分享内容:
[1] Chen, Longfei, et al. "FSLens: A Visual Analytics Approach to Evaluating and Optimizing the Spatial Layout of Fire Stations." IEEE Transactions on Visualization and Computer Graphics (2023).
论文简介:消防服务对于保障居民的生命财产安全起着至关重要的作用。消防站的空间布局与消防救援行动的效率紧密相关。传统的方法主要依赖于数学规划模型,通过总结相关的评价标准来生成合适的布局。然而,由于决策空间的广泛性、准则间固有的冲突性和决策者的偏好性,这一过程面临着巨大的挑战。为了应对这些挑战,我们提出了FSLens,一个交互式的可视分析系统,可以实现对消防站布局的深入评估和合理优化。我们的方法整合了火灾记录和相关性特征,利用时空序列预测揭示火灾发生模式和影响因素。我们设计了一种交互式的可视化方法,根据火灾分布和现有消防站布局,探索城市潜在的消防资源不足的区域。此外,我们开发了一个人机交互的多准则决策模型,生成多个候选解决方案,用于优化这些区域内的消防资源。通过精心设计的可视化来模拟和比较不同解决方案对原始布局的影响,为决策者提供最满意的解决方案。最后通过一个具有真实世界数据集的案例研究证明了我们方法的有效性。领域专家的反馈表明,我们的系统有助于他们更好地识别和改善当前消防站布局中的潜在不足。
Part4
分享人:邓凌竹
分享内容:
[1] Careil M, Verbeek J, Lathuilière S. Few-shot semantic image synthesis with class affinity transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 23611-23620.
论文简介:目前,利用分割图像生成真实图像需要大量数据集,导致标注成本和 训练时间成本较高。针对这一问题,该文提出了一种基于 Class Affinity 的 迁移学习框架,可以实现在少样本目标域数据的条件下,完成模型由源域 向目标域的迁移学习。 为了衡量该迁移学习框架的有效性,作者分别用了监督式的分割 网络;自监督方法;基于 CLIP 框架以上三种方法融合的方式 构建 Class Affinity 矩阵,在OASIS 和PITI 生成式模型上进行了 迁移实验。 为了衡量该迁移学习框架的普适性,作者分别采用了COCO 至 ADE;AED 至 COCO;ADE 至 Cityscapes;COCO 至 CItyScapes 进行迁移试验。 为了衡量该迁移学习框架的优越性,作者分别采用了 25 至 400 个不同 数量的 target image 进行试验,证明了该方法在 few-shot 下的性能,并与 其他迁移学习框架进行了量化对比,取得了 SOTA 的成绩。
Part5
分享人:徐骏驰
分享内容:
[1] Zhang, Wei, et al. "Scrolltimes: Tracing the provenance of paintings as a window into history." IEEE Transactions on Visualization and Computer Graphics (2024).
论文简介:对文物出处、追踪所有权和保存的研究在考古学和艺术史中具有重要意义。现代技术推动了这一领域的发展,但挑战仍然存在,包括识别来自不同来源的证据、整合社会文化背景以及增强交互式自动化以进行全面的来源分析。我们与艺术史学家合作,研究了手卷这种中国传统绘画形式,它提供了丰富的历史数据来源,并为通过文化文物探索历史提供了独特的机会。我们提出了一种三层方法,涵盖工件、上下文和出处级别,旨在为手卷创建“传记”。我们的方法结合了图像处理技术和语言模型的应用,使用各种文化遗产数据库提取、验证和增强手卷中的元素。为了促进对非连续提取元素的有效分析,我们开发了一种独特的布局。此外,我们还推出了ScrollTimes,这是一个专门为支持手卷三层分析而定制的视觉分析系统,使艺术史学家能够交互式地创建适合他们兴趣的传记。我们的方法经过案例研究和专家访谈的验证,提供了一扇了解历史的窗口,促进对手卷出处和历史意义的整体理解。