PRCV2022-day2

2022年12月25日,第五届中国模式识别与计算机视觉大会(PRCV 2022)第二日会议正式开始。今日会议议程包括国内外教授主旨报告、嘉宾特邀报告、论文口头报告和专题论坛。下面将对大会的主要内容进行简要介绍。

主旨报告1

讲者:Kyoung Mu Lee(IEEE TPAMI主编、IEEE Fellow)

报告题目:Toward Real-World Image Super-Resolution: Challenges and Approaches

Lee教授在报告中指出,图像超分辨率Super Resolution(SR)旨在从输入的低分辨率图像中重建高分辨率图像,在计算机视觉、数码摄影和许多实际应用中起着至关重要的作用。最近,基于深度学习卷积神经网络CNN和大规模数据集开发了大量的SR方法。然而,大多数最先进的方法仍然不能很好地泛化到现实世界的场景,尽管它们在公共基准测试中表现相对较好。在本次演讲中,Lee教授团队提出了解决现实世界 SR 问题中的一些技术问题和挑战,包括领域差距、任意尺度变换和实时处理问题。然后引入了新的方法来应对这些挑战,通过具有新有效损失的 GAN 学习未知的真实下采样过程,允许在任意变换下进行广义图像SR,并通过自适应量化和剪枝优化网络结构。Lee教授团队凭实验和经验证明了新策略。

图1 Toward Real-World Image Super-Resolution: Challenges and Approaches

主旨报告2

讲者:张友正(腾讯首席科学家、腾讯AI Lab及腾讯Robotics X实验室主任、ACM/IEEE Fellow)

报告题目:虚实集成世界里的数字人和机器人

张老师在报告中提出,随着AI、VR、AR、XR等数字技术的飞速发展,以及几乎无处不在的移动宽带互联网的覆盖,我们正在进入一个虚实集成世界(Integrated Physical-Digital World,IPhD),也即虚拟世界(数字世界)与真实世界(物理世界)的紧密结合。虚实集成世界(IPhD)需要具有四大关键技术:现实虚拟化、虚拟真实化、全息互联网、智能执行体。互联网将以更快的速度和更宽的带宽继续发展,最终将能够传输包括 3D 形状、外观、空间音频、触觉和气味在内的全息内容。智能执行体,例如智能数字人(虚拟人)和数字/物理机器人,在数字世界和物理世界之间穿梭。在本次演讲中,张老师描述了虚实集成世界需要的两大关键领域,数字人和机器人。数字人技术包括3D建模,口型驱动,肢体驱动,TTS(语音合成),文本理解和生成,游戏解说等。机器人技术包括A2G理论,以及在此理论指导下的进展。

图2 虚实集成世界里的数字人和机器人

特邀报告1

讲者:金连文(华南理工大学)

报告题目:光学文字识别:从数据驱动到模型自监督

金教授在报告中指出,光学文字识别(OCR)技术在信息录入、图像理解、智慧金融、智能办公、智慧教育、电子商务、信息安全、文化传承等诸多领域有非常广阔的应用前景,是计算机视觉及人工智能领域的重要研究问题之一。近年来,基于数据驱动的深度学习方法已成为主流,但其性能极大依赖费时费力的海量数据收集和标注。在本报告中,金教授从如何低成本利用大规模数据、如何降低深度学习模型对标签数据的依赖这一视角,来介绍OCR相关领域一些新的研究进展,并对此领域的一些重要问题及发展趋势进行讨论和展望。

图3 光学文字识别-从数据驱动到模型自监督

特邀报告2

讲者:鲁继文(清华大学)

报告题目:视觉基础模型及应用

鲁教授深耕于计算机视觉和模式识别领域,发表在顶级会议上的论文百余篇,对视觉任务有独到的理解。在本次报告中指出,基础模型是人工智能领域的研究热点,在计算机视觉和自然语言处理等领域取得了优异的性能,是视频监控、自动驾驶、智能终端等重要应用的支撑性技术。报告将面向图像数据、点云数据和多模态数据三个方面回顾视觉基础模型近年来的研究进展,同时介绍课题组在视觉基础模型方面所开展的一些工作,主要包括高阶递归模型、全局滤波模型、动态稀疏模型、跨域迁移模型等,以及它们在图像分类与识别、目标检测与分割、场景重建与理解等视觉任务中的应用。

图4 视觉基础模型及应用

口头报告1

报告题目:高分与遥感目标分析

文章:SUDANet: A Siamese UNet with Dense Attention Mechanism for Remote Sensing Image Change Detection

变化检测是遥感影像的主要应用之一。使用深度学习的像素到像素变化检测一直是研究热点。然而,目前的方法不足以融合深层语义特征和原始空间信息,并且由于卷积核大小的限制,网络不具备执行长距离信息聚合的能力。作者团队提出了一个名为 SUDANet的网络结构,它是具有密集注意力机制的UNet,能够对遥感图像进行变化检测。SUDANet网络在encoder和decoder之间的密集跳跃连接中加入了channel attention机制和self-attention机制,使模型能够融合channel维度和spatial维度的特征信息。编码器末尾还增加了Graph attention模块,使模型能够进行相关分析和深度语义特征的远距离聚合。模型在LEVIR数据集上的实验结果表明,SUDANet性能SOTA。

文章:Hyperspectral and Multispectral Image Fusion Based on Unsupervised Feature Mixing and Reconstruction Network

高光谱图像(HSI)通常具有丰富的光谱信息,多光谱图像 (MSI) 具有更高的空间分辨率。因此,HSI和MSI的融合可以实现信息互补,增加信息的可靠性。深度学习在HSI/MSI融合领域得到了广泛的应用。为了在没有足够训练数据的情况下获得具有高空间分辨率的HSI,在本文中,作者团队提出了一种名为UFMRS-net的新型无监督HSI/MSI融合网络。该模型由三部分组成,首先,采用两个编码器网络来获得初步融合特征。其次,将多尺度初步融合特征馈入特征混合和重构模块,旨在增强不同级别骨干特征之间的通信。最后设计了一个空间注意力网络来提取微小的纹理并增强空间结构。 与一些最先进的方法相比的实验结果表明,该模型在视觉和数值结果上都很出色。

图5 基于无监督特征混合与重构网络的高光谱与多光谱图像融合