ICME 2026 - Day1

2026年7月5日,IEEE International Conference on Multimedia and Expo 2026(ICME 2026)在泰国曼谷正式拉开帷幕。作为多媒体领域的重要国际学术会议,ICME 长期关注视觉、语音、图像、视频、三维感知、多模态理解与智能交互等方向的发展。本届会议首日主要围绕教程报告、挑战赛和专题研讨会展开,内容涵盖智能车辆三维感知、语音与声音伪造检测、跨文化情感计算以及三维点云处理等多个前沿方向,为参会学者提供了充分的交流机会。

视觉计算实验室硕士生樊禧、朱陶涛参会并将展示三篇论文。会议现场融合了曼谷城市文化与人工智能元素,来自全球多地的研究者陆续抵达会场,在轻松而热烈的氛围中开启了本届 ICME 的学术交流。

参会合影

卡尔加里大学Henry Leung教授主持并围绕“智能车辆应用中的预测式三维视觉”带来了报告。报告以智能车辆为核心应用背景,围绕三维场景感知、目标状态预测和自动驾驶环境理解等问题展开。Henry Leung教授指出,智能车辆系统不仅需要识别当前道路环境中的车辆、行人和障碍物,还需要进一步预测动态目标的未来运动趋势,从而支撑更安全、更稳定的路径规划与决策。

报告从三维视觉感知出发,结合智能车辆场景介绍了遮挡、密集目标和传感器噪声等实际挑战。讲者指出,三维感知不仅要理解当前空间结构,还要预测动态目标的未来状态,这对模型的鲁棒性和场景理解能力提出了更高要求。相关内容也为实验室成员理解自动驾驶中的视觉技术应用提供了参考。

Tutorial1:智能车辆应用中的预测式三维视觉

随后,由李明教授和张雪平教授担任主席的Grand Challenge“环境感知语音与声音深度伪造检测挑战赛”,聚焦真实环境下语音与声音深度伪造检测问题。随着语音合成、声音克隆和生成式模型的快速发展,伪造音频已经从实验室环境逐渐走向复杂的真实传播场景。相比单纯判断一段语音是否由模型生成,真实场景中的检测任务还需要面对背景噪声、设备差异、环境混响和说话人变化等多重因素。

来自日本国立信息学研究所的王教授围绕语音深度伪造检测评估指标进行了分享,并结合伪造语音检测系列评测中的经验,讨论了当前评价体系中的若干关键问题。报告指出,深度伪造检测研究不能只关注单一指标上的性能提升,更需要思考指标是否能够真实反映模型在复杂环境中的可靠性。尤其是在环境感知条件下,检测系统需要同时具备鲁棒性、可解释性和跨场景泛化能力。该报告引发了与会者对可信多媒体、安全音频分析和评测标准设计的进一步思考。

王教授分享语音深度伪造检测评估指标相关报告

下午的专题研讨会同样内容丰富。在Workshop“网络多媒体中的社会智能与跨文化情感计算”中,报告围绕情感计算模型、人类行为理解和跨文化社会智能展开。该研讨会由Patrick Le Callet教授和赵国英教授担任主席,关注多媒体环境下人类情绪、意图和社会行为的建模问题。

其中,关于情感计算模型的报告,Patrick Le Callet教授介绍了情感计算从传统面部表情识别向更复杂的人类状态理解发展的过程。随着网络会议、社交平台和多媒体交互场景的普及,人类情感表达不再局限于单一图像或单一表情,而是同时体现在面部、语音、姿态、文本和交互行为之中。不同文化背景下,人们表达情绪和理解情绪的方式也存在差异,这使得跨文化情感计算成为一个具有挑战性且富有现实意义的研究方向。通过该场报告,实验室成员进一步认识到,多媒体智能不仅需要理解视觉内容本身,也需要关注人与人之间、人与环境之间的复杂关系。

Workshop2:网络多媒体中的社会智能与跨文化情感计算

在Workshop“三维点云处理、分析、压缩与通信”中,与会学者围绕点云数据的表示、压缩、分析和实际部署问题展开讨论。该研讨会由袁辉教授担任主席,内容覆盖三维数据处理中的多个关键环节。点云作为三维场景表达的重要形式,在自动驾驶、机器人、增强现实、数字孪生和沉浸式通信等领域具有广泛应用。然而,点云数据通常规模较大、结构稀疏且分布不规则,这也使其在模型训练、实时推理和网络传输中面临较高成本。

报告中特别讨论了三维点云方法在实际应用中的限制与风险,包括推理成本较高、点丢失后恢复困难、生成结果质量受类别影响明显等问题。该场报告不仅关注算法精度,也强调模型部署、通信效率和实际场景可用性,为三维视觉方向的研究提供了更全面的视角。

Workshop3:三维点云处理、分析、压缩与通信

ICME 2026 第一天的学术活动紧凑充实,内容涵盖预测式三维视觉、语音与声音深度伪造检测、跨文化情感计算和三维点云处理等方向。通过参加首日活动,实验室成员进一步了解了多媒体领域的前沿进展,拓展了国际学术视野。