2021智源大会-day0

为促进国际交流与合作,打造世界人工智能学术高地,加强产学研协同,塑造连接世界人工智能产业与学术资源的中心枢纽,北京智源人工智能研究院将于2021年6月1日至6月3日,召开2021北京智源大会。 北京智源大会是人工智能领域内行盛会,于2019年10月首次召开,已连续成功举办两届。2020年,5位图灵奖得主参会,19个专题论坛涵盖人工智能学术与应用前沿,来自30多个国家和地区超过50万人观看了此次盛会。 2021北京智源大会将在线上与线下同时召开,线下会场位于北京中关村国家自主创新示范区会议中心。


Tutorial:大规模预训练技术实战

报告题目: 大规模预训练模型3D加速
报告嘉宾:孙桢波,清华大学博士生
报告内容
随着训练规模的增大,各种分布式训练框架被广泛运用在大规模预训练模型中。为了高效地训练大规模模型,目前主要采用的模型并行训练策略分为数据并行、模型并行、流水线并行和混合并行四类。报告中介绍和比较了这些并行策略的特点,并介绍如划分策略等能够加速模型训练的技术。

图1 孙桢波线下汇报

报告题目:FastMoE: 开源大规模分布式MoE训练框架
报告嘉宾:裘捷中,清华大学博士生,FastMoE开发者
报告内容
MoE已经成为通往万亿参数大模型的重要工具。报告介绍了开源大规模分布式MoE训练框架FastMoE,并且着重介绍最新的FastMoE v0.2的一些特性,包括:
(1)全新的负载均衡模块,支持NoisyGate、GShard、Swith Transformer等负载均衡策略;
(2)同时支持英伟达GPU平台和神威国产超算平台;
(3)1.75万亿模型训练实战。

图2 预训练模型的发展趋势

报告题目:大规模多模态预训练
报告嘉宾:高一钊,清华大学博士生,文澜开发者
报告内容
近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力,即将发布的文澜2.0是首个中英文多模态双塔模型。
文澜2.0在1.0的基础上进行了多方面改进:
(1)采用了更大的参数量和更多的数据;
(2)选择使用Multi-Grid Split池化方法来替换检测器,从而显著减少计算代价,并保持模型的细节捕捉能力;
(3)采用了高效的分布式多模态预训练框架,提出基于DeepSpeed的多模态预训练算法,最大化利用GPU和CPU,并最优地支持跨模态对比学习。

图3 高一钊介绍文澜2.0模型改进
图4 文澜2.0改进思路

报告题目:CogView:文本到图像生成式预训练
报告嘉宾:丁铭,清华大学博士生,CogView作者
报告内容
通用领域文本到图像的生成一直是一个开放性问题,处理该问题需要跨模态理解的能力和强大的生成模型。报告介绍了CogView,一个参数量为40亿的Transformer及VQ-VAE图像分词器,可以理解自然语言并实现图像融合。CogView在低分辨率MS COCO上取得了目前最好的Fréchet Inception Distance,优于此前基于GAN的模型和最近的类似工作DALL-E。报告人还展示了风格学习、超分辨率、文本图像自排序等下游任务的微调策略,并立足实战分享了稳定预训练(消除NaN损失)的方法。

图5 CogView整体框架

Tutorial:前沿机器学习

报告题目:Adversarial attacks and defenses in deep learning
报告嘉宾:董胤蓬,清华大学计算机系人工智能研究院博士生
报告内容
在深度学习(deep leaming,DL)算法驱动的数据计算时代,确保算法的安全性和鲁棒性至关重要。本报告介绍了深度学习中的对抗性攻击和防御措施。讲者首先介绍了现有AI框架的局限性,包括容易被人为添加噪声形成的对抗图像影响,导致预测结果出错。接下来,讲者从对抗机器学习的典型过程、对抗性能评价指标、对抗目标和对抗方法种类等角度作了详细的介绍。接下来,讲者重点介绍了黑盒攻击中的迁移攻击方法,指出迁移攻击的难题是如何增强泛化能力。讲者针对这一难题,提出了梯度估计框架,通过提升模型梯度估计能力来优化迁移性能。
随后,讲者提出了目前对抗防御的三大难题,分别是训练速度、泛化能力和鲁棒性,提出对抗分布式训练,并就多个对抗和防御方法进行了评估。最后,讲者总结了对抗训练模型的迁移应用场景,包括机器学习可解释性、图像分类和隐私保护等领域。

图6 董胤蓬分享对抗机器学习

报告题目:Adversarial Robustness: from Empirical to Certified Defenses
报告嘉宾:张弘扬,加拿大Vector Institute助理教授
报告内容
为了应对深度神经网络针对输入数据周围较小扰动的脆弱性,对抗防御一直是机器学习等领域的重要研究内容。讲者从对抗性机器学习范式、对抗防御和基准测试三大方面作了介绍。

图7 Adversarial Robustness报告内容概览

为了应对深度神经网络针对输入数据周围较小扰动的脆弱性,对抗防御一直是机器学习等领域的重要研究内容。讲者从对抗性机器学习范式、对抗防御和基准测试三大方面作了介绍。


Tutorual:CSIG情感计算与理解专委会成立大会暨“情感认知,何去何从?”情感计算科学家论坛

报告题目:基于语音的情感识别技术与应用
报告嘉宾:刘斌,中国科学院自动化研究所副研究员
报告内容
语音情感识别能够从采集到的语音信号中提取表达情感的声学特征,并找出这些声音特征与人类情感的映射关系,它是计算机情感智能的重要组成部分,是实现自然人机交互界面关键前提,具有很大的研究价值和应用前景。
讲者先介绍了语音情感识别在语义理解、精神状态检测、情感陪伴、智能客服、谎言分析等应用场景的重要作用。然后,从情感表示模型、情感数据库、情感特征、情感识别方法展开讲解。情感表示模型主要分为离散情感表示模型和连续多维度情感模型,现有情感数据库主要有演员表演、引导情感、去自媒体、现实生活四个来源,其中标记的特征包含语速、基频、共振峰、LPCC(线性预测倒谱系数)、MFCC(Mel频域倒谱系数)和哭笑惊叹等副语言信息。情感识别现有主要方有高斯混合、马尔可夫、支持向量机及深度神经网络,其效果各有优劣。最后,讲者表示未来语音情感识别技术可以在环境描述、情感特征和情感的个性化方面产生新的突破!

图8 基于语音的情感识别技术与应用

报告题目:社交媒体中多维度文本情感计算
报告嘉宾:秦兵,哈尔滨工业大学长聘教授
报告内容
社交媒体已经成为人们生活的一部分,社交媒体中存在大量的情感文本信息。讲者从社交媒体中文本情感计算的不同维度出发,介绍情感分类、隐式情感分析、情感归因、个性化情感、跨领域情感、文本情感自动生成等情感计算不同任务。列举了“微博舆情地图”和“八维评论分析系统”,并说明了文本情感计算在社会舆情、电子商务、传统行业和金融领域都产生了巨大应用价值。最后,讲者表示文本情感计算未来将不断打破边界,和多模态技术、认知心理等学科交叉,产生更深远的影响。

图9 文本情感计算简介