ICASSP 2024 - Day5

短课2:Practical Guide to Computational Imaging: From Basics to Brilliance

讲者:Lu Fang (Tsinghua University), Jiachen Wu (Tsinghua University), Xun Cao (Nanjing University), Jinwei Gu (Chinese University of Hong Kong), Yifan Peng (University of Hong Kong), Jiamin Wu (Tsinghua University)

计算成像处于数学、计算机科学和物理学的交叉点,将这些学科无缝融合成一个创新领域。它的主要使命是将看不见的东西变得可见,包括拍摄黑洞、绕过角落成像、穿透雾气等任务。在当代,计算成像技术在工业和科学领域广泛应用。值得注意的是,它在消费级智能手机上发挥着突出作用,行业巨头如苹果和谷歌已成立专门团队来开拓计算摄影。这些无处不在的口袋大小相机由于硬件限制(受其纤薄外形和成本考虑限制),需要算法创新,专用镜头和奢华设计仍然不切实际。除了智能手机摄影,计算成像技术将其影响力扩展到自动驾驶车辆,将它们的感知能力提升到超人水平。

计算成像领域的贡献来自于多样化的学科,包括信号处理、光学、机器学习、计算机视觉、计算机图形学、应用数学等。在计算成像领域取得的进展与这些相关领域的进步密切相关。值得注意的是,计算成像不仅仅是这些异质社区的共同兴趣,而且是应对当代科学挑战的不可或缺的工具。

本次报告将计算成像的核心原理与研究人员之间建立了桥梁。讲者从计算成像的核心原理出发,确保研究人员具备所需的背景知识。接着,深入探讨了计算光场成像,涵盖了从千亿像素摄影到三维重建的原理、捕捉技术和应用。随后,探索了计算全息成像与显示,其中波的干涉和衍射创造了引人注目的三维表示。然后,介绍了计算高光谱视频采集,超越了传统彩色摄像机以捕捉详细的光谱数据。接下来,深入探讨了衍射光学的计算成像,覆盖了衍射光学元件(DOEs)在高光谱成像、全息术和HDR成像中的设计和应用。最后,介绍了移动计算摄影,其中先进的移动图像传感器和计算技术结合成为尖端的成像解决方案。

图 1 图像单应性变化

主会报告 4:Geometry and Latent Signal Representations in Machine Learning

讲者:Dr. Daniel D. Lee(Cornell Tech)

随着技术的不断进步,大规模神经网络架构在多个领域展现了惊人的表现。讲者从多个领域进行了介绍,在目标分类领域,还是在场景理解、语言处理以及多模态生成方面,这些神经网络都展现出了非凡的性能。其深度学习的模式识别能力为人工智能领域带来了前所未有的发展机遇。从图像识别到自然语言处理,再到跨模态的信息融合,神经网络的不断演进正在重新定义着人工智能的边界。

在报告中,讲者提到“我们如何理解输入信号的表示在深度神经网络中如何转换?”的问题,随后对此进行了解释分析,这些“表示”在神经网络基本感知单元的层级结构中被重新格式化时的高维几何结构,获得统计见解。总而言之,深度神经网络的出现为新型人工智能技术的开发和部署带来了显著进展。

图 2 大规模神经网络的工程应用