时间:2025年10月25日(周六) 09: 00
地点:望江校区基础教学楼B座318实验室
分享者:魏楷臻、杨阳
Part 1
分享者:魏楷臻
分享内容:
Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu. Meta CLIP 2: A Worldwide Scaling Recipe. arXiv:2507.22062v3 (July. 2025)
论文简介:
Contrastive Language-Image Pre-training(CLIP, 基于对比学习的多模态语言-图像对预训练模型)是一种近年来较为流行的多模态模型,可以支持多模态大语言模型(MLLMs)的零样本分类任务。CLIP已经对来自英语世界的十亿量级的图像-文本对进行了训练,但是CLIP在进一步扩展到全球数据学习时仍然会面临两个挑战:(1)没有可用的策略或方法来处理来自非英语世界的数据;(2)现有多语种模型表现较纯英语效果更差,即大型语言模型中常见的“多语种诅咒”。本文提出了Meta CLIP 2,这是第一个面向全球规模的图像-文本对,从零开始训练CLIP的方法,并提出了一种能够从英语和非英语世界数据中互相提升的方法。在零样本学习的ImageNet分类中,Meta CLIP 2比纯英语分类高出0.8%,比mSigLIP高出0.7%。并且令人惊讶地在多语言基准测试上成为了SOTA模型,例如CVQA为57.4%,Babel-ImageNet为50.2%,以及XM3600为64.3%。
Part 2
分享者:杨阳
分享内容:
Li Y, Zhu Z, Zhang Y, et al. Boost the Inference with Co-training: A Depth-guided Mutual Learning Framework for Semi-supervised Medical Polyp Segmentation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 10394-10403.
论文简介:
近年来,半监督息肉分割作为计算机辅助治疗的一种潜在解决方案取得了显著进展。由于深度图像相比RGB图像能提供额外信息以帮助分割这些具有挑战性的区域,深度辅助息肉分割受到了广泛关注。然而,如何充分利用深度信息仍值得深入研究。现有的RGB-D分割方法在推理阶段依赖深度数据,这限制了其在临床中的应用。为了解决这一问题,本文提出了一种基于均值教师(mean teacher)架构的半监督息肉分割框架。在训练阶段,本文建立了一个以深度图像为输入的辅助学生网络,并提出了深度引导的跨模态互学习策略,以促进不同学生网络之间的互补信息学习。同时,本文利用辅助学生网络生成的高置信度伪标签,从不同角度引导主学生网络的学习过程。值得注意的是,本文的模型在推理阶段不需要使用深度数据。此外,本文引入了一种深度引导的局部块增强方法(patch augmentation),以提升模型在未标注息肉图像困难区域的学习能力。实验结果表明,在五个息肉数据集上,在不同标注条件下,本文的方法均达到了当前最优性能。代码已公开于:https://github.com/pingchuan/RD-Net。