2026年春季学期视觉计算实验室第13次论文研读预告

时间：2026年6月27日（周六）上午09: 00

地点：望江校区基础教学楼B座318实验室

Part1

分享者：杨鑫月

分享内容：

[1] Z. Zhu, B. Zhong, Q. Liang, H. Yang, Y. Zheng and N. Li, "Adaptive Expert Decision for RGB-T Tracking," IEEE Transactions on Circuits and Systems for Video Technology, 2025, doi: 10.1109/TCSVT.2025.3563223.

论文简介：

RGB-T 目标跟踪旨在利用可见光图像（RGB）和热红外图像（TIR）之间的互补信息，在复杂场景中实现更加鲁棒的目标定位。RGB 图像通常能够提供丰富的颜色、纹理和细节信息，但在低照度、恶劣天气或强光干扰等情况下容易退化；而 TIR 图像能够反映目标的热辐射特征，在弱光或夜间场景中具有更稳定的表现。因此，如何根据不同跟踪场景动态选择和融合两种模态中的有效信息，是 RGB-T 跟踪中的关键问题。现有许多 RGB-T 跟踪方法通常采用固定的融合策略，难以根据环境变化自适应调整不同模态的重要性，从而影响跟踪性能。针对这一问题，本文提出了一种新的 RGB-T 跟踪算法 AETrack。该方法首先设计了自适应专家决策机制（Adaptive Expert Decision Mechanism, AEDM），通过多个专家分别学习不同类型的特征，并利用跨模态信息作为引导，根据当前场景自适应选择最合适的专家输出有效特征，从而减少无关信息的干扰。进一步地，作者提出渐进式跨模态融合模块（Progressive Cross-modal Fusion, PCF），在ViT 主干网络的多个层次中逐步融合 RGB 与 TIR 特征，以充分挖掘两种模态之间的互补关系。实验结果表明，AETrack 在 LasHeR、RGBT210 和 RGBT234 等主流 RGB-T 跟踪数据集上均取得了优于现有方法的性能，验证了自适应专家选择和渐进式跨模态融合在复杂场景目标跟踪中的有效性。

Part2

分享者：王艺蒙

分享内容：

[1] F. Cheng, V. Zouhar, R. S. M. Chan, D. Fürst, H. Strobelt and M. El-Assady, "Understanding Large Language Model Behaviors Through Interactive Counterfactual Generation and Analysis," in IEEE Transactions on Visualization and Computer Graphics, vol. 32, no. 1, pp. 846-856, Jan. 2026, doi: 10.1109/TVCG.2025.3634646.

论文简介：

了解大语言模型（LLM）的行为对于确保其安全可靠的使用至关重要。然而，现有的大模型可解释人工智能（XAI）方法主要依赖于词汇层面的解释，这不仅计算效率较低，而且往往与人类的推理过程存在偏差。此外，这些方法通常将解释视为一次性的输出结果，忽略了其本质上应当是互动和迭代的过程。

在本文提出了LLM Analyzer，这是一个交互式可视化系统。它通过反事实分析，实现了对大语言模型行为的直观且高效的探索，从而解决了上述局限性。本文的系统采用了一种新颖的算法，能够通过用户自定义粒度的定向删除和替换操作，生成流畅且语义合理的反事实文本。这些反事实文本被用来计算特征归因分数，并与具体示例相结合呈现在基于表格的可视化界面中，从而支持对模型行为进行动态分析。一项针对大模型从业者的用户研究以及专家访谈表明，该系统具有良好的可用性和有效性，同时也强调了让人类作为主动参与者（而非被动接收者）参与到解释过程中的重要性。

Part3

分享者：王翔坤

分享内容：

[1] Luo E P, Wei L, Hao M S, et al. A multi-modal diffusion model with dual-cross-attention for multi-omics data generation and translation[J]. Nature Communications, 2026.

论文简介：

针对单细胞多组学实验成本高、样本通量有限、多模态数据整合与跨模态转化困难等行业痛点，本文在初代 scDiffusion 基础上推出scDiffusion-X，一款面向单细胞多组学分析的多模态隐空间扩散模型。该模型的核心突破是设计双交叉注意力（DCA）模块，摒弃传统简单拼接的融合方式，可自适应捕捉转录组、染色质可及性等不同分子模态间复杂的隐性关联，兼具灵活性与生物学可解释性。大量基准实验证实，相较于 MultiVI、CFGen、scDesign3、BABEL 等主流方法，scDiffusion-X 能生成高度贴合真实特征的多组学数据，有效保留细胞异质性与全局数据结构，同时具备优秀的大数据集适配能力，还可用于扩充稀有细胞样本、提升下游分析精度。该模型还实现了 RNA 与染色质可及性数据的双向跨模态翻译、扰动响应预测，并支持结果不确定性量化，弥补了现有方法仅能输出单点预测的不足。研究进一步搭建梯度解析框架，依托 DCA 模块挖掘细胞类型特异性异质基因调控网络（GRN），并结合 ENCODE、HiChIP等公共数据完成验证，打通了生成式建模与生物机制解析的壁垒。

论文框架