CCBR 2024 -2024.11.24
特邀报告:Face Recognition: a Vision Ahead Reflections on 30 years of face recognition research
讲者:Massimo Tistarelli(意大利萨萨里大学)
作为计算机视觉和人工智能最成功的应用之一,面部识别技术已在多个领域发挥重要作用,例如自动化边境控制、移动设备身份验证和智能安防系统等。该报告由Tistarelli教授主讲,围绕面部识别技术的现状与未来研究方向,探讨了该技术从理论到应用的演进以及亟需解决的科学问题。报告指出,尽管近年来技术进步迅速,面部识别仍面临许多技术和伦理上的挑战,未能完全实现广泛、安全和公平的应用。
Tistarelli教授在报告中提出了几个关键研究问题,阐明了当前技术进步的局限性和研究的潜在方向:
(1)“面部识别是否已是一个‘解决’的问题?”面部识别的应用范围在过去30年快速扩展,许多人认为该技术已趋于成熟。然而,专家指出,尽管在理想条件下面部识别系统可以达到极高的准确率,但实际场景中仍然存在问题,例如不同光照、角度、表情变化甚至种族差异带来的识别误差。这些问题表明,技术尚未在所有应用环境中得到全面解决。
(2)“深度学习模型的局限性和数据依赖性”当前主流的面部识别技术依赖深度学习模型,然而这些模型对大量标注数据的需求和对计算资源的依赖性仍然限制了其广泛应用。教授指出,即使增加数据量和计算能力,模型的泛化能力和抗干扰能力仍存在瓶颈。未来的研究需要探索更高效、更通用的模型架构。
(3)“人类视觉系统的启发”人类的面部识别能力一直被视为机器学习的参考标准。报告中提到,人类在复杂环境下能够通过极少的信息进行快速、准确的面部识别,这表明生物神经系统可能具有不同于深度学习的有效机制。深入研究人类视觉系统的工作原理,将为面部识别技术提供新的思路。
(4)“构建‘伦理性’系统以应对隐私问题”面部识别技术的广泛应用引发了诸多隐私和伦理争议。报告强调,未来的研究应以负责任的态度,设计“透明、可解释、可控”的面部识别系统,确保技术不会被滥用或侵犯用户隐私。
本次报告深刻揭示了面部识别技术的现状与前景,为学术研究和行业应用提供了宝贵的指导。
特邀报告:Beyond Visual Biometric Signals
讲者:虞晶怡(上海科技大学)
在本次报告中,虞教授分享了其团队在超越传统生物特征识别领域的最新探索。传统生物特征识别主要依赖于RGB图像捕捉的外观特征,而其团队通过引入非传统信号(如X光、MRI和IMU)展示了如何将人体的解剖结构融入生物特征识别的研究中。团队的研究重点不仅是还原数字化人类的外貌,还包括更深层次的内在结构,例如面部与手部的骨骼、肌肉,乃至全身运动的捕捉。这些新型信号的应用在RGB信号受限的环境(如弱光、远距离、快速运动)中展现了巨大的潜力,为传统方法无法解决的问题提供了创新解决方案。
在会议中,虞教授介绍了其团队提出的大规模生成模型——CLAY。传统的3D建模工具往往对用户的专业技能要求较高,使用门槛较高,而CLAY通过先进的生成模型架构,能够直接从多种3D几何体中提取丰富的3D先验知识。CLAY不仅支持传统的文本和图像输入,还可以处理多种3D感知控件,如多视图图像、体素、点云及隐式表示。其核心技术基于大规模生成模型,包括多分辨率的变分自编码器(VAE)和精简的潜变量扩散变换器(DiT),能够从多样化的3D几何形状中提取深层次的先验,精准生成连续且完整的3D曲面。此外,CLAY采用先进的渐进式训练策略,并利用超大规模数据集(1.5亿参数),实现了复杂几何和材质的高效生成。它的出现不仅降低了3D建模的门槛,还为创意工作者提供了更多的可能性,开启了数字创意领域的全新篇章。
专题论坛:视觉基础模型论坛
讲者:左旺孟(哈尔滨工业大学)、赵洲(浙江大学)
1. 工业视觉缺陷检测大模型及黑盒调优算法
左教授分享的主题是“工业视觉缺陷检测大模型及黑盒调优算法”,视觉缺陷检测是现代工业制造中的关键环节,面对产品多样化、制造工艺复杂化及缺陷类型多样化的挑战,传统的视觉检测模型往往在适应性和泛化能力上存在局限。本报告提出了一种工业视觉缺陷检测的大模型方法,通过结合视觉专家模块和语言大模型(LLMs),显著提升了缺陷检测模型对新产品、新制程和新缺陷的适应能力。这种方法利用语言大模型强大的视觉理解和语言表达能力,构建了更灵活、更智能的检测框架,为工业应用提供了创新解决方案。
同时,报告还探讨了黑盒大模型(如ChatGPT、Gemini等)在特定场景下的微调技术。这些商用基础模型通常不公开模型结构与代码,为其在特定任务中的优化应用带来了技术挑战。研究展示了如何有效利用黑盒大模型的推理与求解能力,解决视觉学习中的优化问题。
2. 跨模态内容理解与生成
赵教授分享的主题是“跨模态内容理解与生成”,多模态理解和生成是人工智能发展的前沿方向,其核心在于将文本、图像、音频等多种模态的信息进行高效的融合与交互。传统的多模态对齐方法依赖于在大型配对数据集上的对比学习,尽管取得了显著的效果,但面临计算资源高昂和对模态配对数据高度依赖的挑战。
在报告中赵教授介绍了其团队的工作,通过引入轻量级映射层,实现了在不解冻预训练模型编码器的前提下对多模态任务的高效微调。这种方法不仅突破了传统模态配对数据的限制,还能融合多个预训练模型的知识,灵活地扩展任意两两模态间的对齐,为多模态理解和生成任务提供了更广泛的适用场景。在多模态对齐的基础上,其团队的研究进一步提升了多模态生成能力,提出了基于音视频模态对齐、非自回归特征估计和特征融合的同步生成框架,同时利用扩散模型在对齐空间中从动作生成音乐,有利于多模态内容的创作。
专题论坛:手部生物特征识别论坛
讲者:王海霞(浙江工业大学教授)、费伦科(广东工业大学)
1. 基于光学相干层析成像的皮下指纹研究
王教授在报告中分享了其团队在指纹识别技术领域的最新研究进展,主题为“基于光学相干层析成像的皮下指纹研究”。该研究针对传统指纹识别的两大挑战——指纹变形与伪造问题,提出了一种创新性解决方案,为生物识别技术的发展提供了重要突破。
报告指出,指纹随着年龄增长和长期使用会发生磨损和变形,导致约5%的人群难以通过指纹完成身份识别。同时,指纹伪造技术的进步,也对信息安全提出了新的挑战。针对这些难题,王教授团队利用光学相干断层扫描技术开发出一种同步指纹采集系统,能够精确捕捉指尖表面及其下1-2毫米深度的三维信息,包括深层指纹纹路与汗腺结构,这一技术使得即使在表层皮肤受损或指纹磨损的情况下,皮下特征仍然可以提供可靠的身份认证依据。王教授在报告中强调,皮下指纹具有天然的抗伪造优势,对于防止指纹欺诈具有重要意义。该研究系统性探讨了皮下指纹的采集与提取技术,并对其在身份识别和防伪领域的应用潜力进行了系统分析。
2. 弱约束掌纹识别
费教授的报告主题为“弱约束掌纹识别”,系统地介绍了掌纹识别技术的背景、发展历程、当前研究工作以及未来展望。掌纹识别以其非接触性、非侵犯性、便利性和掌纹的半私密性优势,成为生物特征识别领域的重要研究方向。近年来,亚马逊和腾讯推出的“刷手支付”系统(Amazon One 和 WePalm)进一步推动了该技术的普及与发展。
报告中,费教授分享了其团队在弱约束掌纹识别方向的研究进展,涵盖了掌纹图像超分辨率、弱约束掌纹特征提取以及可见光-近红外(VIS-NIR)异质掌纹识别等方面的工作。其中,在掌纹图像超分辨率研究中,提出了密集混合注意力(DHA)网络,通过卷积层和并行的CNN及Transformer分支联合学习局部和全局特征,解决了低质量掌纹图像的清晰化问题。特别是,团队开发了增强的空间和通道注意力模块,使得复原的掌纹图像在纹理和边缘特征上更加清晰,在公开数据集上的实验结果验证了该方法的有效性。最后,费教授对掌纹识别技术未来的发展方向进行了展望,指出随着技术的不断进步,掌纹识别在隐私保护、设备适配性以及跨模态识别等方面仍有巨大潜力。