2025年秋季学期视觉计算实验室第一次论文研读预告

时间：2025年9月13日（周六）09:00

地点：望江校区基础教学楼B座318实验室

分享者：卢玉杰、杨阳

Part1

分享者：卢玉杰

分享内容：

Zeng Z, Miao Y, Gao H, et al. AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models[C]//Findings of the Association for Computational Linguistics: EMNLP 2024. 2024: 6223-6235.

论文简介：

混合专家（Mixture of Experts, MoE）因其能够在不显著增加计算开销的前提下提升模型容量，已成为构建生产级大语言模型（LLMs）的标准架构。然而，现有 MoE 方法通常对所有词元强制采用固定的 top-k 路由策略，这显然存在局限性——因为不同词元（例如“<EOS>”与“apple”）在特征抽象时可能需要不同数量的专家。解除这一限制有助于更高效地利用有限资源，并充分释放模型在下游任务中的潜力。为此，本文提出 AdaMOE，实现面向词元自适应的专家路由机制，允许不同词元动态选择不同数量的专家。AdaMOE 对标准 top-k 路由的 MoE 架构仅做了极小改动：它在专家集合中引入固定数量的“空专家”（null experts）——这些专家不消耗任何浮点运算（FLOPs），并同时增大 k 值。AdaMOE 并不强制每个词元占用固定数量的空专家，而是通过负载均衡损失函数确保空专家的平均使用率，从而实现每个词元自适应地使用不同数量的空专家或真实专家。AdaMOE 在行为上与“专家选择”（expert choice）路由机制高度相似，同时仍支持简单的自回归建模。AdaMOE 易于实现，可无缝应用于预训练的（MoE-）LLM 模型。大量实验表明，AdaMOE 能在降低平均专家负载（FLOPs）的同时获得更优性能。例如，在 ARC-C 数据集上，将 AdaMOE 应用于 Mixtral-8x7B 的微调过程，可在减少 14.5% FLOPs 的同时，将准确率提升 1.69%。

Part 2

分享者：杨阳

分享内容：

Qiu K, Gao Z, Zhou Z, et al. Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 15672-15681.

论文简介：

深度学习已彻底改变了医学图像分割领域，但其全部潜力仍受限于标注数据集的匮乏。尽管扩散模型作为一种有前景的方法被提出，用于生成合成的图像-掩码对以扩充这些数据集，但它们却矛盾地面临着与其试图缓解的相同数据稀缺挑战。传统的仅掩码模型由于无法充分捕捉形态学细节，常常生成保真度较低的图像，这会严重损害分割模型的鲁棒性和可靠性。为缓解这一局限，本文提出了“孪生扩散模型”（Siamese-Diffusion），这是一种包含掩码扩散（Mask-Diffusion）和图像扩散（Image-Diffusion）两个组件的新型双组件模型。在训练过程中，本文在两个组件之间引入了噪声一致性损失（Noise Consistency Loss），以在参数空间中增强掩码扩散的形态学保真度。在采样阶段，仅使用掩码扩散，从而确保了多样性和可扩展性。综合实验表明了本文方法的优越性：在Polyps数据集上，Siamese-Diffusion使SANet的mDice和mIoU分别提升了3.6%和4.4%；在ISIC2018数据集上，UNet的mDice和mIoU分别提升了1.52%和1.64%。代码已在GitHub上开源：https://github.com/Qiukunpeng/Siamese-Diffusion。

Navigation

Tag list

2025年秋季学期视觉计算实验室第一次论文研读预告