2025年春季学期视觉计算实验室第3次论文研读预告

时间:2025年3月14日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者王国强

分享内容:

[1] Chen N, Zhang Y, Xu J, et al. Viseval: A benchmark for data visualization in the era of large language models[J]. IEEE Transactions on Visualization and Computer Graphics, 2024.

[2] Feng Z, Jiang Y, Wang H, et al. TrafPS: A shapley-based visual analytics approach to interpret traffic[J]. Computational Visual Media, 2024, 10(6): 1101-1119.

[1] 自然语言到可视化(NL2VIS)技术在可视化数据分析领域展现出巨大潜力,但仍是一项具有挑战性的任务,需要自然语言处理和可视化设计等多个底层技术的协同实现。近期预训练大型语言模型(LLM)的突破性进展为自然语言生成可视化提供了全新路径。然而,当前缺乏全面可靠的基准测试体系,严重制约了对 LLM 可视化生成能力的系统性认知。本文提出了新型 NL2VIS 基准测试平台 VisEval,有效填补了这一研究空白。首先,构建了高质量大规模数据集,包含覆盖 146 个数据库的 2524 个典型查询案例,并配备精准标注的可视化标准答案。其次,倡导多维度综合自动化评估体系,涵盖可视化有效性、合法性和可读性等关键指标。通过多个异构检查器系统地扫描潜在问题,VisEval 能够提供可靠可信的评估结果。通过在一系列前沿 LLM 模型上进行的VisEval 基准测试,揭示了当前模型普遍存在的技术瓶颈,并为未来研究方向提供了重要启示。

[2] 深度学习(Deep Learning,DL)的最新成果已经证明了其在交通流量预测方面的潜力。这样的预测对于了解情况和制定交通控制决策是有益的。然而,大多数最先进的深度学习模型被认为是 “黑箱”,对最终用户来说,其底层机制几乎没有透明度。一些先前的研究试图 “打开黑箱” 并提高生成预测的可解释性。但是,在大规模时空数据上处理复杂模型以及发现对交通流量有显著影响的突出时空模式仍然具有挑战性。为了克服这些挑战,我们提出了 TrafPS,这是一种用于解释交通预测结果的可视化分析方法,以支持交通管理和城市规划中的决策制定。提出了测量区域 SHAP 和轨迹 SHAP,以量化不同层次的流模式对城市交通的影响。根据领域专家的任务要求,我们采用了一个交互式可视化界面,用于对重要流模式进行多方面的探索和分析。两个真实世界的案例研究证明了 TrafPS 在识别关键路线和为城市规划提供决策支持方面的有效性。

分享者:姚和

Liu Z, Sun Z, Zang Y, et al. Visual-RFT: Visual Reinforcement Fine-Tuning[J]. arXiv preprint arXiv:2503.01785, 2025.

强化微调(Reinforcement Fine-Tuning, RFT)在大型推理模型(如 OpenAI o1)中通过对其答案的反馈进行学习,这在微调数据稀缺的应用程序中尤为有用。近期开源工作如 DeepSeek R1 表明,结合可验证奖励的强化学习是再现 o1 的一种关键方向。尽管 R1 风格的模型已在语言模型中显示出成功,其在多模态领域的应用仍未被充分探索。本研究引入了视觉强化微调(Visual Reinforcement Fine-Tuning, Visual-RFT),进一步扩展了 RFT 在视觉任务中的应用领域。具体而言,Visual-RFT 首先利用大型视觉语言模型(Large Vision-Language Models, LVLMs)为每个输入生成包含推理标记和最终答案的多重响应,随后通过视觉感知可验证奖励函数,利用策略优化算法(如群体相对策略优化 GRPO)更新模型。针对不同的感知任务,设计了不同的可验证奖励函数,例如为目标检测任务设计的交并比(Intersection over Union, IoU)奖励。在细粒度图像分类、少样本目标检测、推理定位和开放词汇目标检测基准上的实验结果表明,与监督微调(SFT)相比,Visual-RFT具有竞争性能和先进的泛化能力。