ICME 2025 进入第二天议程,今天大会的分享涵盖零样本语义分割、3D 人体运动检索、人体姿态估计等多个前沿领域,为参会者提供了新的研究思路和视野。
四川大学 Yi Zhang 教授团队率先带来了精彩的 oral presentation。由硕士研究生 Chunrui Li 为第一作者的文章《SCA-ZegCLIP: Shape- and Context-aware CLIP for Zero-shot Semantic Segmentation》,聚焦当下热门的大规模对比语言 - 图像预训练模型(CLIP)在零样本语义分割(ZSS)中的应用。尽管 CLIP 模型在众多计算机视觉任务中表现出色,但现有模型存在缺乏形状感知的问题,且文本提示在基于视觉语言模型的语义分割中至关重要。针对这些痛点,团队提出了 SCA-ZegCLIP 模型,通过引入轮廓感知模块和多粒度上下文感知提示学习器,增强模型的密集预测能力。同时,首次将双路径提示调整策略应用于基于 CLIP 的密集预测任务,并开发出单阶段 ZSS 模型。在 COCO-Stuff 164K 和 PASCAL VOC 2012 数据集上的大量实验表明,该模型在分割准确性和对未见类别的泛化能力上,超越了其他先进方法,为零样本语义分割研究开辟了新方向。

紧接着,西安电子科技大学的研究成果《3D Human Motion Corpus Moment Retrieval via Multi-Granularity Semantic Alignment》同样吸引了研究者。报告指出,当前 3D 运动数据库虽数据丰富,但传统关键词检索难以精准匹配复杂运动语义。研究团队另辟蹊径,构建了 “时间-空间-语义” 三级对齐框架:在时间粒度上,利用自适应窗口分割技术,将连续运动分解为语义完整单元;空间粒度方面,借助骨骼拓扑感知编码器捕捉关节细微差异;语义粒度上,通过跨模态对比学习模型实现自然语言与运动片段的双向映射。实验数据显示,该技术在 HumanML3D 测试集上表现卓越,尤其是复合动作检索精度大幅提升。现场的演示环节更是将气氛推向高潮,其在智能体育教练、影视特效制作、帕金森康复等领域的应用前景引发了热烈讨论。问答环节中,学者们高度评价该方法对运动语义的层次化解构,认为其多粒度对齐思维为时序数据处理带来了创新思路。

步入海报展示区,展示着各领域最前沿的研究成果。参会者们驻足凝视,仔细研读海报上的文字与图表;三两成群,围聚在感兴趣的海报前。现场此起彼伏的学术交流声,充分展现出浓厚的学术氛围与创新活力。会议现场,由四川大学 Hongyu Yang 教授指导,Guonan Deng 为第一作者的论文《EMGPose: An Efficient Multi-Granularity Representation for Human Pose Estimation》的海报前,引发了广泛讨论。该论文针对单粒度特征表示的局限性展开研究,指出细粒度表示会带来冗余背景信息,增加计算负担,而粗粒度表示则会导致关键点模糊,降低准确性。为此,团队提出根据图像块的关键点信息内容,以不同粒度进行表示,实现准确性和效率的平衡。面对多粒度表示后仍存在的大量低信息标记,团队结合注意力和相似度的加权融合,提出新的标记压缩方法。所提出的两阶段 EMGPose 框架,在 COCO val2017 数据集上达到 76.3 AP,在遮挡挑战数据集 OCHuman 上达到 62.2 AP,且计算效率大幅提升,推理速度高达 688.8 img/s,在复杂场景中也展现出强大的鲁棒性。下图是萨里大学的 AC 王老师驻足于此,与周围学者积极讨论。

ICME 2025 第二天的学术交流,不仅展现了计算机视觉领域的最新研究成果,更促进了不同团队间的思想碰撞,为该领域的未来发展注入了新的活力。