2025年春季学期视觉计算实验室第15次论文研读预告

时间:2025年6月28日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:魏楷臻、姚和、杨鑫月

Part1

分享者:魏楷臻

分享内容:

[1] Yuan Tian, Weiwei Cui, Dazhen Deng, Xinjing Yi, Yurun Yang, Haidong Zhang, Yingcai Wu. ChartGPT: Leveraging LLMs to Generate Charts from Abstract Natural Language. IEEE Transactions on Visualization and Computer Graphics, Volume 31, Issue 3. (Mar. 2025).

[2] Changjian Chen, Fei Lv, Yalong Guan, Pengcheng Wang, Shengjie Yu, Yifan Zhang , and Zhuo Tang. Human-Guided Image Generation for Expanding Small-Scale Training Image Datasets. IEEE Transactions on Visualization and Computer Graphics, Volume 31, Issue 6. (Jun. 2025).

论文简介

[1] 由于自然语言交互的直观性,使用自然语言接口(Natural Language Interface)来创建可视化图表变得越来越流行。该方法的关键在于准确地解析用户意图并且将其转换为适当的图表规范来生成图表。但是,用户的自然语言输入通常是不清晰不明确的,尤其是没有视觉编码的明确规范,这阻碍了自然语言接口在图表生成中的广泛使用。经过预训练的大型语言模型(LLM)在理解和生成自然语言方面表现出了卓越的性能,为下游任务的实现提供了支撑。受这一主要趋势的启发,本文提出了ChartGPT,从简略的自然语言输入生成图表。为了使模型能够准确地指定可视化编码参数,并在图表生成过程中执行操作,本文将生成过程分解为一个逐步推理的管道,使得模型只需要在每次运行期间推理单个特定的子任务。除此之外,LLM是在一般数据集上预训练的,图表生成任务可能产生偏差。为了提供足够的可视化知识,本文创建了一个由简略话语和图表组成的数据集,并通过微调来提高模型性能。本文还为ChartGPT设计了一个交互式界面,允许用户检查和修改每个步骤的中间输出。

[2] 计算机视觉的模型在某些实际场景应用(例如稀有野生动物观察)中的性能往往受限于可用图像的数量。使用预训练的生成模型来扩展数据集是突破限制的有效途径。然而,由于自动生成是不可控的,因此生成的图像通常在多样性方面存在缺陷。本文提出了一种基于人工引导的图像生成方法,使得数据集的扩展更加可控。本文开发了一种多模态投影方法,对原始图像和生成图像进行探索。在探索的基础上,用户可以优化提示并且重新生成图像,以获得更好的性能。由于细化提示对于新手用户来说同样是一个挑战,本文开发了一种样本级的提示细化方法,用户仅需提供样本水平反馈(例如哪些样本是不希望出现的)以获得更好的提示。通过对多模态投影方法的定量评价、模型在分类以及目标检测任务中的性能改进和专家的积极反馈,验证了该方法的有效性。

Part2

分享者:姚和

分享内容:

[1] Sun H, Wang R, Li Y, et al. SET: Spectral Enhancement for Tiny Object Detection[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 4713-4723.

论文简介

[1] 近年来,深度学习极大地推动了目标检测技术的发展,但**微小目标检测(Tiny Object Detection, TOD)依然面临诸多挑战。针对这一问题,研究者提出了一种全新的分析视角,即基于遮挡归因分析在频域中探讨微小目标检测的难点。研究发现,微小目标在经过特征编码后,其显著性会显著减弱,而**去除高频信息**反而能够提升其检测表现。基于这一观察,研究者进一步提出了一种创新方法:频域增强技术(Spectral Enhancement for Tiny object detection, 简称 SET),旨在于异构网络架构中放大微小目标的频率特征。SET 方法由两个关键模块组成:1. 分层背景平滑(HBS)模块:通过自适应平滑操作抑制背景区域中的高频噪声,从而更好地突出微小目标的有效特征;2. 对抗扰动注入(API)模块:通过引入对抗扰动,增强关键区域的特征响应,并在训练阶段促进模型对目标特征的微调和鲁棒性提升。在多个数据集上进行的大量实验验证了该方法的有效性。尤其是在AI-TOD 数据集上,SET 相较于现有的 RFLA 方法将平均精度(AP)提高了3.2%,显示出其在微小目标检测任务中的显著性能优势。

Part3

分享者:杨鑫月

分享内容:

[1] JiaZexi, HuangChuanwei, ZhuYeshuang, FeiHongyan, DuanXiaoyue, YuanZhiqiang, DengYing, ZhangJiapei, ZhangJinchao, ZhouJie. Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis. //Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), 2025.

[2] YanZhiyuan, WangJiangming, WangZhendong, JinPeng, ZhangKe-Yue, ChenShen, YaoTaiping, DingShouhong, WuBaoyuan, YuanLi. Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection. arXiv preprint arXiv:2411.15633, 2024.

论文简介

[1] 论文针对AI生成图像检测中跨域泛化难题,提出基于颜色分布分析的检测方法。研究发现,合成图像因生成模型局限常出现颜色分布不均,而真实图像经相机色彩校正技术处理后颜色分布更均匀。基于此,作者通过颜色量化与恢复技术,分析图像恢复前后的颜色差异,提取有效颜色特征并结合图像特征,构建轻量级检测模型。同时,为更科学评估检测模型,作者提出跨域的FakeART基准,其训练集为自然风景照,测试集包含WikiArt真实艺术品与多种生成模型合成图像。实验表明,该模型在GAN和扩散模型基准上均达先进水平,在FakeART数据集上同样显著优于现有方法,验证了颜色特征在跨域检测中的有效性。

[2] 论文针对 AI 生成图像(AIGI)检测中泛化能力不足的问题,提出了一种基于正交子空间分解的方法。作者发现,传统检测器易过拟合训练集中有限的虚假模式,导致特征空间低秩化,进而限制表达能力与泛化性。为此,他们利用奇异值分解(SVD)将原始特征空间分解为两个正交子空间:其一冻结主成分以保留视觉基础模型的预训练知识,其二通过优化残差成分学习虚假模式。该方法显式保证子空间正交性,避免预训练知识失真,提升特征空间秩,有效缓解过拟合。实验表明,在深度伪造和合成图像检测基准上,该方法以 0.19M 参数量实现 94.0% 的跨数据集平均 AUC,较现有全参数微调及 LoRA 等方法显著提升泛化性能。其核心创新在于揭示虚假图像与真实图像的层次依赖关系,通过建模这一先验知识,使检测器能在语义对齐子空间内高效判别,为通用 AIGI 检测提供了新思路。