2026年春季学期视觉计算实验室第1次论文研读预告

时间：2026年3月7日（周六）09:00

地点：望江校区基础教学楼B座318实验室

分享者：卢玉杰、李天豪

Part 1

分享者：卢玉杰

分享内容：

Kabra R, Ovsjanikov M, Hudson D A, et al. A Mixed Diet Makes DINO An Omnivorous Vision Encoder[J]. arXiv preprint arXiv:2602.24181, 2026.

论文简介：

像 DINOv2 这样的预训练视觉编码器在单模态任务上已经展现出了卓越的性能。然而，我们观察到它们的特征表示在不同模态之间缺乏良好的对齐。例如，同一场景的 RGB 图像及其对应深度图的特征嵌入所表现出的余弦相似度，几乎与两张完全随机、不相关的图像的相似度一样。为了解决这个问题，我们提出了“杂食性视觉编码器”，这是一个能够学习与模态无关特征空间的新颖框架。我们使用双重目标来训练该编码器：首先，最大化同一场景下不同模态之间的特征对齐；其次，使用一个蒸馏目标，将学习到的表征锚定在一个完全冻结的教师模型（如 DINOv2）的输出上。由此产生的学生编码器通过为特定场景生成一致且强大的特征嵌入，从而变得“杂食”，而无论输入的模态是什么（RGB、深度图、分割图等）。这种方法在实现了鲁棒的跨模态理解的同时，也保留了原始基础模型极具判别力的语义信息。

Part 2

分享者：李天豪

分享内容：

Luo Y, Zhao X, Ye K, et al. Stinr: Deciphering spatial transcriptomics via implicit neural representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2025: 25930-25939.

论文简介：

空间转录组学（Spatial Transcriptomics，ST）是一类新兴技术，用于揭示组织内部基因表达的空间分布，是发掘生物学机制的重要手段。然而，不规则的空间分布结构以及基因表达的高度变异性，使得在计算框架下有效整合空间信息与基因表达数据变得具有挑战性。当前的算法大多利用空间图神经网络来编码空间信息，但这种方法可能会带来较高的计算成本，并且在描述复杂空间结构时缺乏足够的灵活性。在本研究中，提出了一种简洁而有效的表示框架STINR，用于解析空间转录组数据。STINR利用隐式神经表示（Implicit Neural Representation, INR）对空间转录组数据进行连续表示，通过继承INR的隐式平滑特性，能够高效刻画ST数据中的空间相关性以及切片间相关性。STINR还能够在无需对齐的情况下更容易地整合多张组织切片以及多组学数据，并可作为一种强大的工具应用于多种生物学任务，包括基因表达补全、基因去噪、空间结构域识别以及细胞类型解卷积等。特别地，STINR成功识别出了背外侧前额叶皮层中最薄的皮层层级，这是以往方法未能实现的；同时，它还能更加准确地识别人类鳞状细胞癌中的肿瘤区域，展示了该方法在生物学发现中的实际应用价值。