ICME-Day4新闻稿

法国南特举行的 IEEE 国际多媒体与博览会 (ICME) 2025 会议于今日迎来最后一天议程。尽管会议临近尾声,会场内的学术交流热度持续高涨。来自全球各地的学者们积极参与最后阶段的报告与讨论,呈现了多项高质量研究成果,为本届盛会画上了圆满句号。

口头报告1: CDFormer: Cross-Domain Few-Shot Object Detection Transformer Against Feature Confusion

该研究聚焦于跨域少样本目标检测 (CD-FSOD) 中的核心挑战——特征混淆问题。研究者明确指出,在跨域且样本稀缺的条件下,目标与背景的混淆(Object-Background Confusion)以及不同类别目标间的混淆(Object-Object Confusion)是制约检测性能提升的关键瓶颈。

为有效解决上述问题,研究团队提出了创新的 CDFormer 模型架构。其核心贡献在于两个关键模块的设计:

1. ​目标-背景区分模块 (Object-Background Differentiation Module, OBD)​​:该模块引入可学习的背景标记 (learnable background tokens),通过特定的注意力机制设计,有效分离目标特征与背景干扰信息。

2. ​目标-目标区分模块 (Object-Object Differentiation Module, OOD)​​:此模块旨在增强不同类别目标实例间的特征判别性,减少类别间的混淆。

实验结果表明,CDFormer 在多个标准 CD-FSOD 基准数据集上进行了广泛验证。实验数据表明,该模型显著超越了现有最优方法(SOTA)。在极具挑战性的少样本设定下(如 1-shot, 5-shot, 10-shot),其平均精度均值(mAP) 分别提升了 12.9%、11.0% 和 10.4%。这一显著的性能提升充分验证了模型设计的有效性。

此项工作不仅为 CD-FSOD 领域长期存在的特征混淆难题提供了有效的解决方案,其提出的模块设计思路(如利用可学习标记进行特征解耦)也具有更广泛的借鉴意义,有望为相关领域的模型设计(如小样本学习、域自适应)提供新的技术路径。

浙大团队跨域少样本检测口头报告

口头报告2: GC-ConsFlow: Leveraging Optical Flow Residuals and Global Context for Robust Deepfake Detection

随着生成式人工智能的快速发展,Deepfake 技术在产生高度逼真伪造媒体内容的同时,也对社会信任和信息安全构成了严峻挑战。针对此问题,长沙理工大学 Jiaxin Chen 等研究者在会议上报告了其最新研究成果GC-ConsFlow。该研究深入分析了当前 Deepfake 检测技术存在的瓶颈:现有方法通常独立关注空间域(如图像帧内的纹理伪影)或时间域(如帧间运动的不一致性),​对两者间协同作用的建模不足,并且易受真实面部自然动作造成的干扰。这些局限性导致检测模型在复杂或压缩场景下的鲁棒性降低。为突破上述限制,研究团队创新性地提出了 ​GC-ConsFlow 框架,这是一个专门设计用于高效融合空间与时间伪造痕迹的双流网络架构。其核心创新包含两个互补且相互增强的关键组件:

1. ​全局上下文感知帧流(Global Context-Aware Frame Stream, GCAF)​​:

o 该流专注于空间不一致性的检测。

o 集成全局分组上下文聚合模块(Gobal Grouped Context Aggregation Module, GGCA)​。

o ​​通过分组机制聚合整幅图像/帧的上下文信息,有效增强空间特征的表示能力,使其更能捕获跨区域、细微的纹理异常和伪造伪影,从而提升对空间伪造痕迹的敏感性。

2. ​流梯度时间一致性流(Flow-Gradient Temporal Consistency Stream, FGTC)​​:

o 该流专注于时间不一致性的检测。

o 避免直接建模易受噪声影响的光流残差。

o 利用计算得到的光流(optical flow)及其残差(residuals),并进一步结合光流梯度(flow gradients)来构建更具判别力的特征。

​         双流协同机制:​​ GCAF 流与 FGTC 流并非孤立工作。它们提取的空间和时间特征在后续阶段进行深度融合与交互​,使得模型能够联合捕捉伪造过程中留下的互补性时空异常信号。研究者对 GC-ConsFlow 在多个主流 Deepfake 检测数据集(如 FaceForensics++, Celeb-DF, DeepFakeDetection)​​ 上进行了全面评估。实验特别关注了在不同压缩等级和失真条件下的鲁棒性。结果表明GC-ConsFlow ​显著超越了当前领域内最先进的(SOTA)检测方法。双流协同设计被证实能有效提升检测精度与泛化能力,尤其在不完美的现实场景(如视频压缩)中表现出更强的鲁棒性。GC-ConsFlow 框架不仅展示了优异的性能,其提出的全局上下文空间增强(GGCA)​与基于光流残差及梯度的时序建模(FGTC)​策略,为未来多媒体内容真伪鉴别技术的研发提供了新的思路。

口头报告3: VectorPainter: Advanced Stylized Vector Graphics Synthesis Using Stroke-Style Priors

当前文本引导的矢量图形合成面临根本性挑战:​纯文本描述无法精确控制艺术风格。现有方法(如StyleCLIPDraw、SVGDreamer)依赖像素空间的风格损失函数,导致矢量图优化时梯度引导失效,生成结果常出现风格失真​和结构混乱​。未解决上述问题,北航团队提出双阶段框架VectorPainter:

1. 笔触风格提取​:通过 SLIC 超像素算法分割参考图像,将颜色与纹理一致的像素区域识别为原始笔触;进一步采用模仿学习策略优化矢量笔触——以可学习背景标记(learnable background tokens)动态调整控制点位置,经过 250 步迭代使矢量笔触精确复现参考图细节。如图 4b 所示,该方法成功重建了参考图像的复杂纹理与色彩层次。

2. 风格保持合成​:将提取的笔触作为初始化参数(替代随机初始化),通过双约束机制优化重组过程:

Ø 笔触级约束​:引入最优运输损失,最小化笔触从参考位置到目标位置的移动代价,抑制结构变形;

Ø 全局约束​:采用 DDIM 反演技术,将参考图像编码至潜空间并引导扩散模型生成,确保整体风格一致性。

VectorPainter 在多项实验中展现了显著的性能优势,并在核心指标上全面超越现有最优方法(SOTA)。具体而言,ArtFID(综合评价指标)从基准方法 SVGDreamer+VectorNST 的 80.335 大幅降至 ​26.962​(降低 66.5%),表明其在内容-风格平衡上实现了突破性优化;FID(风格保真度)从 44.869 优化至 ​23.160​(降低 48.4%),证实参考图像风格的高度复现能力;CLIPScore(文本对齐性)从 0.2506 提升至 ​0.3109​(提升 24.1%),验证了文本语义的精确控制。这些数据充分证明,VectorPainter 解决了传统方法中风格失真与结构混乱的核心矛盾。

VectorPainter Pipeline

海报展示环节:

在海报展示区,一项由北京智源人工智能研究院、爱奇艺及中国科学院自动化研究所等机构联合完成的成果——“MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception”——成为关注焦点。该研究直面自动驾驶感知领域的关键挑战:多传感器融合模型(尤其在3D目标检测和HD地图构建任务中)高度依赖传感器数据的完整性。然而,现实中的恶劣天气(如雨、雾)或传感器故障(如遮挡、污损)会导致相机或激光雷达输入损坏或缺失,严重削弱现有融合模型的鲁棒性,进而威胁行车安全。

为系统评估并提升模型在此类复杂场景下的性能,研究团队提出了首个专注于多传感器损坏场景的综合性基准测试——MSC-Bench。该基准创新性地定义了16种传感器损坏类型组合,可独立或同时作用于相机和激光雷达输入。通过对六种主流3D目标检测模型和四种HD地图构建模型的广泛评估,MSC-Bench揭示了模型在传感器损坏条件下普遍存在的性能显著下降问题,量化了当前技术的安全瓶颈。值得关注的是,该基准测试工具包及相关代码、模型检查点已全面开源,为学术界和工业界后续研发具有更高环境适应性和故障容忍度的鲁棒自动驾驶感知模型提供了至关重要的评估平台与宝贵资源,现场引发了学者们就提升模型稳定性和可靠性的深入探讨。

随着第四天议程的结束,ICME 2025 会议正式圆满落幕。这场汇聚全球顶尖学者与科研力量的盛会,不仅展示了多媒体领域最前沿的研究成果,更为学者们搭建了深度交流与合作的桥梁。相信此次会议所激发的创新灵感与合作契机,将持续推动多媒体技术及相关领域迈向新的高度,为解决现实世界的复杂问题提供更多可行方案,也让我们期待下一次学术盛会的再次相聚!​