VALSE 2022-day1

8月22日上午,第十二届视觉与学习青年学者研讨会(VALSE 2022)在天津国家会展中心隆重举行。本次会议由中国图象图形学学会、中国人工智能学会主办,天津大学承办,天津工业大学、天津科技大学和天津市人工智能学会等单位协办。会议为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者(以80后为主)提供了一个深层次学术交流的舞台。

图1:会议主会场展板

报告1:一网通吃:跟踪与分割大统一

讲者:卢湖川(大连理工大学)

卢教授基于团队发表的多篇论文成果向学者们介绍如何利用一个架构实现单目标跟踪、多目标跟踪、视频目标分割、多目标跟踪与分割这四个任务。用人工智能(AGI)是想达成1个网络完成多个不同的任务,即在不改变网络结构和参数的情况下,实现多任务处理,可以更好的挖掘模型特性、泛化能力,是未来发展趋势。本报告分别介绍其团队在单目标跟踪(SOT)、分割(VOS)、多目标跟踪(MOT)与分割(MOTS)四个方向上的最新成果,最后,讲述其团队围绕多任务通用视觉模型Unicorn,实现的单目标跟踪(SOT)与分割(VOS),多目标跟踪(MOT)与分割(MOTS)四个任务的大一统,实现1网通吃。

图2:Multi-Source-APS论文实验效果

报告2:深度神经网络优化技术探索

讲者:张磊(OPPO研究院)

深度学习已经在诸多行业得到成功应用,我们处在一个“万物皆AI”的时代,这在很大程度上得益于深度神经网络(DNN)优化技术的发展,本讲座简单介绍其团队在DNN优化技术上的探索。首先,提出了一种简单有效的梯度集中化(GC)方法,只需一行代码将梯度向量归一化到零均值,便可加速训练过程、提高泛化性能以及微调预训练模型。其次,目前基于权重梯度下降的方法会将特征限制到相对低维的空间,降低特征学习的效率。其团队提出了特征随机梯度下降(FSGD),改善了特征空间的奇异性,增强了特征学习的功效。最后,在自适应学习率方法上,提出了一个带有约束的全矩阵预处理梯度的一般性regret bound,通过引入合适的约束条件,显著降低全矩阵预处理梯度方法所需的内存和计算量,所提出的优化方法(AdaBK)在分类、检测和分割等任务上展现了先进的性能。

从该讲座中受到诸多启发,虽然计算机视觉在过去几年中取得了显著的进展,视觉算法还面临很多挑战,譬如缺乏可解释性、易受对抗攻击等。要解决这些问题,我们还需要研究如何从大规模的复杂数据(包括文本、图像和视频)中学习和分析数据背后隐含的本质规律,并从深度学习、机器学习的角度对数据的隐含规律进行数学表示方面的研究,研究如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性,并对视觉领域中的分类、检测、分割、跟踪等核心问题带来更全面的改进。

图3:讲座现场

报告3深度学习从经验主义到去芜存菁

讲者:张拳石(上海交通大学)

深度神经网络的可解释性研究近年来受到大家越来越多的关注,但是深度学习中一些根本性的问题尚未得到有效解释,比如神经网络的泛化性和鲁棒性,神经网络的概念表征特点与表征瓶颈,以及神经网络优化中的潜在障碍,等等。张教授提出问题“为什么要对深度神经网络进行解释”,对此他这样解释道:基于神经网络的深度学习算法就像一个黑盒模型,其解释性较弱,算法无法对特定任务给出清晰的概括,那么在诸如自动驾驶、医疗和金融等决策本身附带“高风险”的领域,利用深度学习算法进行重大决策时,往往需要知晓算法所给出结果的依据,因此,将深度学习的“黑盒子”透明化,使其具有可解释性,具有重要意义。

目前相当部分的深度学习算法往往侧重于经验主义的工程性实现,而缺少基于统一的理论解释,影响了算法的严谨性,阻碍了领域的进一步发展。在本次演讲中,张教授介绍其团队近年来在构建神经网络可解释性理论方向的众多研究,即如何在博弈交互的理论框架下,统一大量前人算法,证明不同经验性研究内在的公共数学机理。具体地,从概念表征层面解释神经网络的泛化性和鲁棒性,统一解释14种神经网络的归因算法的内在机理,统一证明12种对抗迁移性算法的内在公共机理,证明神经网络的表征瓶颈,证明神经网络的优化瓶颈,解释神经网络的概念表征特点。

图4:可解释性:深度学习从经验主义到去芜存菁

报告4Towards Certified Robustness with Lipschitz Networks

讲者:王立威(北京大学)

王教授介绍了其团队在神经网络方面的研究工作,对于标准神经网络,即使具有很高的分类精度,也容易受到小的 ℓ∞-范数有界对抗性扰动的影响。尽管已经进行了许多尝试,但大多数先前的工作要么只能为特定攻击方法的防御提供经验验证,要么只能在有限的场景中开发模型鲁棒性的认证保证。其团队寻求一种新方法来开发一种具有理论原理的神经网络,该网络本质上可以抵抗ℓ∞ 扰动。设计了一个使用 ℓ∞-距离作为其基本操作的新型神经元(我们称之为 ℓ∞-dist 神经元),并表明任何由 ℓ∞-dist 神经元构成的神经网络(称为 ℓ∞-dist 网络)自然是关于 ℓ∞-范数的 1-Lipschitz 函数。这直接为基于预测输出余量的认证稳健性提供了严格保证。他们还证明了这样的网络具有足够的表达能力来逼近任何具有鲁棒泛化保证的 1-Lipschitz 函数。其实验结果表明,所提出的网络是有前途的。使用 ℓ∞-dist 网络作为基本构建块,始终在常用数据集上实现最先进的性能:MNIST 上准确率为 93.09% (ϵ=0.3),Fashion MNIST 上准确率为 79.23% (ϵ=0.1), CIFAR-10 (ε=8/255) 上为 35.10%。

图5:王教授团队所做工作总结