大会迎来第三天日程,今天大会的分享涵盖实验室在医学图像分割领域的口头报告工作CurveSAM、上海交通大学细粒度行为识别视频数据集工作BeEAR、北京邮电大学关于动作识别的工作Think Twice,以及法国图卢兹大学IRIT实验室关于音频表征学习工作Audio-JEPA,今天的汇报同样吸引了大量学者的围观和讨论。
CurveSAM: Skeleton Prompt for Curvilinear Structure Segmentation in Medical Images
汇报人:Junlong Cheng
基础模型以其卓越的零样本泛化能力而闻名,并在各个领域引起了广泛关注。近期研究中,名为“任意分割模型”(SAM)的基础模型利用点和边界框等提示进行图像分割。然而,当应用于医学图像中的曲线结构(例如血管和神经)分割时,SAM及其衍生方法未能达到预期效果。这是因为现有的提示主要针对块状结构而设计,而这些结构与曲线结构具有显著不同的特性。为了应对这一挑战,研究团队提出了一个用于曲线结构分割(CSS)的基础模型—CurveSAM,由三个主要组件组成:图像编码器、提示编码器和掩码解码器;其中,提示编码器支持三种类型的提示:骨架、点和掩码。
具体而言,研究团队提出了一种创新的骨架提示策略,该策略专门针对曲线结构的特性而设计,旨在实现对任意曲线结构的用户友好分割。此外,该方法保留了点击交互的优势,允许用户进一步优化分割结果。利用精心构建的大规模CSS数据集(包含超过10.1万张图片和58.2万个掩膜),CurveSAM不仅超越了最先进的基础模型(例如SAM 和SAM-Med2D),而且分割性能也与专业模型相当甚至更胜一筹。重要的是,通过跨数据集验证和零样本测试,进一步证明了CurveSAM在实际应用中的巨大价值和潜力。

BEAR: A Video Dataset For Fine-grained Behaviors Recognition Oriented with Action and Environment Factors
汇报人:Chengyang Hu
BEAR视频数据集旨在解决细粒度行为识别中的关键挑战,重点关注环境与动作的交互影响,该成果为计算机视觉领域的细粒度行为分析提供了新的数据支持和基准协议。现有的行为识别数据集(如Breakfast、FineGym等)多聚焦于动作本身的分类,而忽略了环境因素对行为语义的影响。例如,“踢足球”与“跑步”在动作上相似,但环境(足球场 vs. 普通道路)能提供关键区分信息。BEAR数据集通过设计四类相似动作(如跑/踢球、攀岩/上楼)和八类相似环境(如自行车、游泳池、岩石等),强制模型学习环境与动作的联合表征,填补了当前研究的空白。
团队工作亮点如下:
- 多模态输入验证:团队对比了C3D、SlowFast、TSN、PoseC3D等多种模型,发现:
- 光学流场和人体骨骼输入在动作识别任务中表现优异,因其能捕捉动态信息。
- RGB输入依赖预训练权重,而多模态融合(如TSN)在部分协议中达到SOTA性能。
- 环境识别任务中,RGB输入优于光学流,因环境物体需静态特征表征。
- 环境-动作关联性:实验表明,光学流场能间接学习环境信息——仅当人与物体交互时(如骑行自行车),环境特征才会在运动中被编码。
- 文本-视频模型探索:VideoCLIP等文本引导模型在BEAR的硬性设定下表现欠佳,提示当前多模态基础模型仍需改进。
讲者还提到,改数据集的应用场景适用于智能监控、人机交互、体育分析等场景,尤其需要区分高度相似行为的领域。例如,在医疗康复中,区分“上楼”与“攀岩”有助于精准评估患者活动能力。

Think Twice: Empowering Action Recognition Models with Human-Like Deep Reasoning
汇报人:Xiangning Ruan
当前动作识别技术面临三大核心挑战:高视觉相似类别的混淆问题、依赖大规模计算的训练方式,以及忽视动作间关联关系的建模局限。研究团队指出:"现有模型像'一次性思考者',而人类在面对复杂动作时会进行多阶段推理——这正是'Think Twice'模型的灵感来源。
该研究创新性地提出三级演进架构:
- Think Once:基础动作识别模型
- Think Once+:引入类别聚类模块
- Think Twice:核心创新点在于构建"提示生成-二次推理"闭环系统,通过建立相似动作的关联网络,使模型能够像人类一样进行对比分析和深度推理。
实验表明,该模型在保持相同计算成本的前提下,在多个复杂动作数据集上准确率显著提升,尤其在视觉相似动作的区分度上表现突出。
这项工作不仅为计算机视觉领域带来方法论创新,更为人机交互、智能文化体验系统提供了新思路。团队特别强调,模型的可解释性设计使其决策过程更透明,有助于在医疗行为分析、体育训练指导等高风险场景的应用落地。有学者评价称:“这项研究将认知科学原理与深度学习巧妙结合”。

Audio-JEPA: Joint-Embedding Predictive Architecture for Audio Representation Learning
汇报人:Ludovic Tuncay
Audio-JEPA灵感源于计算机视觉领域的JEPA(联合嵌入预测架构),首次将其成功迁移至音频领域。与传统的对比学习或信号重建方法不同,Audio-JEPA直接预测掩码频谱片段的高层语义表征,避免了低层次细节的冗余计算。其架构包含三个核心模块:
- 上下文编码器:处理可见的梅尔频谱片段;
- 目标编码器(动量更新):提供稳定的掩码片段表征;
- 轻量级预测器:基于上下文预测掩码区域嵌入。
研究团队强调,这种设计无需数据增强或复杂超参数调优,仅需随机掩码60%的频谱片段,即可在5338小时的AudioSet数据上完成训练,耗时仅14小时(4块V100 GPU),远低于同类模型的资源消耗。
团队通过X-ARES评测套件(涵盖21项语音、音乐、环境声任务)验证模型性能:
- k-NN评估:Audio-JEPA在音乐分类(GTZAN、FMA-small)和环境声识别(ESC-50)任务中排名第一,超越wav2vec 2.0和data2vec;
- 线性探测:虽在细粒度语音任务(如说话人验证)表现较弱,但通过注意力池化等改进有望提升(参见V-JEPA论文)。
研究团队承诺将公开所有代码和预训练模型,并规划以下改进:
- 注意力池化头:提升线性可分性;
- 先进骨干网络:如ConvFormer或CAFormer,优化长时序建模;
- 超参数优化:掩码比例、EMA衰减等系统性调优。
