2025年秋季学期视觉计算实验室第一次论文研读预告

时间:2025年9月13日(周六)09:00

地点:望江校区基础教学楼B座318实验室

分享者:卢玉杰、杨阳

Part1

分享者:卢玉杰

分享内容:

Zeng Z, Miao Y, Gao H, et al. AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models[C]//Findings of the Association for Computational Linguistics: EMNLP 2024. 2024: 6223-6235.

论文简介:

混合专家(Mixture of Experts, MoE)因其能够在不显著增加计算开销的前提下提升模型容量,已成为构建生产级大语言模型(LLMs)的标准架构。然而,现有 MoE 方法通常对所有词元强制采用固定的 top-k 路由策略,这显然存在局限性——因为不同词元(例如“<EOS>”与“apple”)在特征抽象时可能需要不同数量的专家。解除这一限制有助于更高效地利用有限资源,并充分释放模型在下游任务中的潜力。为此,本文提出 AdaMOE,实现面向词元自适应的专家路由机制,允许不同词元动态选择不同数量的专家。AdaMOE 对标准 top-k 路由的 MoE 架构仅做了极小改动:它在专家集合中引入固定数量的“空专家”(null experts)——这些专家不消耗任何浮点运算(FLOPs),并同时增大 k 值。AdaMOE 并不强制每个词元占用固定数量的空专家,而是通过负载均衡损失函数确保空专家的平均使用率,从而实现每个词元自适应地使用不同数量的空专家或真实专家。AdaMOE 在行为上与“专家选择”(expert choice)路由机制高度相似,同时仍支持简单的自回归建模。AdaMOE 易于实现,可无缝应用于预训练的(MoE-)LLM 模型。大量实验表明,AdaMOE 能在降低平均专家负载(FLOPs)的同时获得更优性能。例如,在 ARC-C 数据集上,将 AdaMOE 应用于 Mixtral-8x7B 的微调过程,可在减少 14.5% FLOPs 的同时,将准确率提升 1.69%。

Part 2

分享者:杨阳

分享内容:

Qiu K, Gao Z, Zhou Z, et al. Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 15672-15681.

论文简介:

深度学习已彻底改变了医学图像分割领域,但其全部潜力仍受限于标注数据集的匮乏。尽管扩散模型作为一种有前景的方法被提出,用于生成合成的图像-掩码对以扩充这些数据集,但它们却矛盾地面临着与其试图缓解的相同数据稀缺挑战。传统的仅掩码模型由于无法充分捕捉形态学细节,常常生成保真度较低的图像,这会严重损害分割模型的鲁棒性和可靠性。为缓解这一局限,本文提出了“孪生扩散模型”(Siamese-Diffusion),这是一种包含掩码扩散(Mask-Diffusion)和图像扩散(Image-Diffusion)两个组件的新型双组件模型。在训练过程中,本文在两个组件之间引入了噪声一致性损失(Noise Consistency Loss),以在参数空间中增强掩码扩散的形态学保真度。在采样阶段,仅使用掩码扩散,从而确保了多样性和可扩展性。综合实验表明了本文方法的优越性:在Polyps数据集上,Siamese-Diffusion使SANet的mDice和mIoU分别提升了3.6%和4.4%;在ISIC2018数据集上,UNet的mDice和mIoU分别提升了1.52%和1.64%。代码已在GitHub上开源:https://github.com/Qiukunpeng/Siamese-Diffusion