2025年春季学期视觉计算实验室第8次论文研读预告

时间:2025年04月26日(周六) 09: 00

地点:望江校区基础教学楼B座318实验室

分享者:王启鹏、陶俊

Part 1

分享者:王启鹏

分享内容:

[1] K. Xiong, C. A. Huang, M. Wybrow, and Y. Wu, "TableCanoniser: Interactive Grammar-Powered Transformation of Messy, Non-Relational Tables to Canonical Tables," 2025.

[2] Y. Xie, Y. Luo, G. Li, and N. Tang, "HAIChart: Human and AI Paired Visualization System," Proc. VLDB Endow., vol. 17, pp. 3178–3191, 2024.

论文简介:

[1] TableCanoniser 是一种声明式语法和交互式系统,用于从混乱的表格输入(如电子表格)构建关系表。我们提出了轴对齐的概念来分类输入类型,并描述了我们系统相对于现有工具的扩展范围。声明式语法由匹配条件组成,这些条件指定输入单元格的重复模式,以及提取操作,这些操作指定匹配值如何映射到输出表。在交互式界面中,用户可以通过与输入表交互来指定匹配和提取模式,或者在编码面板中编写更高级的规范。为了精炼和验证规范,用户可以通过与基于语法的来源可视化交互,例如输入和输出值的链接高亮、匹配模式的树状可视化以及带有显示单元格提取位置的注释的匹配模式实例迷你图概览。我们通过现实世界的使用场景和工作流程来激发和展示我们的工作。

[2] 数据可视化在商业智能和数据科学中的日益重要性强调了从大量数据集中高效生成有意义的可视化工具的必要性。现有的工具主要分为两大类:人力驱动工具(例如Tableau和PowerBI),它们需要大量专家参与;以及AI驱动自动化工具(例如Draco和Table2Charts),这些工具往往无法准确猜测特定用户需求。在本文中,我们旨在实现两者的最佳结合。我们的关键想法是首先自动生成一组高质量的视觉图表,以最小化手动工作量,然后通过用户反馈不断迭代优化,以更贴近用户需求。为此,我们提出了HAIChart,这是一个基于强化学习的框架,通过结合用户反馈,旨在迭代地推荐给定数据集的优质可视化。具体来说,我们提出了一种基于蒙特卡洛图搜索的视觉图表生成算法,并配以复合奖励函数,以高效地探索可视化空间并自动生成优质可视化。我们设计了一种可视化提示机制,以积极吸收用户反馈,从而逐步优化可视化生成模块。我们进一步证明,顶k可视化提示选择问题是NP难问题,并设计了一种高效算法。我们进行了定量评估和用户研究,结果表明HAIChart在召回率方面比最先进的人力驱动工具提高了21%,在速度方面快了1.8倍;在Hit@3和R10@30方面,分别比AI驱动自动化工具提高了25.1%和14.9%。

Part 2

分享者:陶俊

分享内容:

[1] X. Yu, Y. Li, J. Ma, C. Li, and H. Wu, "Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images," IEEE Transactions on Geoscience and Remote Sensing, vol. 63, pp. 1-13, 2025.

论文简介:

[1] 遥感图像变化描述(RSICC)旨在生成类似人类语言的文本,以描述双时相遥感图像(RSI)对之间的语义变化。它为理解环境动态和土地管理提供了有价值的见解。与传统变化描述(CC)任务不同,RSICC不仅需要跨不同模态检索相关信息并生成流畅的标题,还需要减轻像素级差异对地形变化定位的影响。长时间跨度的像素差异会降低标题的准确性。为解决这些问题,我们提出了一种基于概率扩散模型的方法,利用其出色的生成能力来生成灵活的标题。在训练阶段,我们构建了一个条件去噪器,可将真实的标题分布高效映射到标准高斯分布。该去噪器融合了跨模态融合(CMF)和堆叠自注意力(SSA)模块,以增强跨模态对齐并减少像素干扰,从而提高标题的准确性。在训练阶段,条件去噪器为均值估计提供了新策略,有助于逐步生成标题。在LEVIR-CC数据集和DUBAI-CC数据集上的大量实验表明了我们Diffusion-RSCC及其各个组件的有效性。定量结果在传统和新引入的指标上均优于现有方法。代码可在以下网址获取:https://github.com/Fay-Y/Diffusion-RSCC