2021智源大会-day1

开幕式

6月1日,由北京智源人工智能研究院(以下简称智源研究院)主办的2021北京智源大会在北京中关村国家自主创新示范区会议中心成功开幕。
开幕式上,智源研究院院长黄铁军教授从创新研究、学术生态、产业发展与AI治理四个方面介绍了智源研究院的工作规划和建设进展。

图1 黄铁军教授致辞

智源研究院理事长张宏江介绍了“悟道”模型研发的背景。他认为,目前,“大模型+大算力”是迈向通用人工智能的一条可行路径。大模型对于人工智能发展具有重大意义,未来将基于大模型形成类似电网的变革性AI产业基础设施。AI大模型相当于“发电厂”,将数据,也就是“燃料”,转换为智能能力,驱动各种AI应用。如果将大模型和所有的AI应用相连接,为用户提供统一的智能能力,全社会将形成一个智能能力生产和使用的网络,即“智网”。大模型就是下一个AI的基础平台,是未来AI发展的战略基础设施。

图2 嘉宾致辞

智源研究院学术副院长唐杰教授介绍了“悟道2.0”模型的具体情况。他提到,“悟道”超大模型智能模型旨在打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,实现超越图灵测试的机器认知能力。“悟道”团队在大规模预训练模型研发上做了很多基础性工作,形成了自主的超大规模智能模型技术创新体系,拥有从预训练理论技术到预训练工具,再到预训练模型构建和最终模型测评的完整链条,从技术上是完整成熟的。通过一系列原始创新和技术突破,本次发布的“悟道2.0”实现了“大而聪明”,具备大规模、高精度、高效率的特点。

图3 嘉宾致辞

中国科学院院士,北京大学教授鄂维南做了题为“AI for Science”的报告,阐述用人工智能技术服务科学和技术的创新。
报告的第一个主题是科学研究,阐述科学研究首先要寻求基本规律和原理,然后应用规律来解决实际问题。近代量子力学的建立宣告寻求基本原理的任务基本完成,剩下的主要任务是解决量子力学基本方程带来的数学问题。传统方法是用多项式有效逼近函数,但仍有很多问题没有解决,其共同根源在于维数灾难。在高维下,多项式不再是一个有效工具,这正是机器学习尤其是深度学习能发挥作用的地方,深度学习为高维函数的逼近提供了有效方法。
报告的第二个主题是人工智能,传统的科研领域应该成为人工智能的主战场!要全面提升科研能力,推动尽快进入“智能化科研”时代,有效地推动对当下工业和技术的升级。当前人工智能的基础是机器学习,但对图像、自然语言处理和机器人也应该建立基础的数学模型。以自然语言处理为例,用数学方法定义语义,即语义是翻译不变量,通过翻译算子和生成算子定义语义。最后,鄂院士畅想了新时代的到来,应用数学与机器学习应该相辅相成,机器学习是应用数学的一个强有力工具。人工智能也会深入到科学研究和技术创新的方法面面,科学研究将走上快车道。

图4 嘉宾致辞

智能体系架构与芯片论坛

报告题目:类脑计算系统基础软件研究
报告嘉宾:张悠慧,清华大学教授,智源研究员
报告内容:
类脑计算系统是借鉴人脑信息处理方式,打破“冯·诺依曼”架构束缚,适于实时处理非结构化信息、具有自主学习能力的超低功耗新型计算系统。讲者首先对类脑计算这一概念进行了介绍,并分析了现有类脑计算研究的需求和不足。讲者指出,当前研究的主要问题有三方面,分别是:软件平台碎片化、类脑应用建模工具缺乏和类脑计算系统软硬件紧耦合。讲者介绍了从通用计算机和深度学习软件开发获得的启示,即类脑计算完备性定义和基础软件平台的重要性。讲者接下来介绍通用的类脑计算基础软件研究技术路线:表达、建模、转换和运行,并介绍了其团队研发的Spiketorch平台,该平台融合了通用计算机的计算精确性特点和类脑计算系统的近似性特点,并能根据任务情况自动选择合适的近似策略。最后,讲者介绍了类脑计算的愿景,即把类脑计算做得更快、更好用。

图5 张悠慧教授介绍类脑计算机

报告题目:第四范式机器学习数据库设计理念与落地实践
报告嘉宾:郑曌,第四范式副总裁
报告内容:
随着机器学习在工业界的逐步普及,传统的数据库结构已经无法适应机器学习对数据量和数据结构等的要求。讲者从科学发展的四大范式入手,介绍了当前的时代背景,即人类科学发展逐步从计算科学走向数据科学,数据库系统的研究向更快地获取数据、更方便地分析数据发展。
接下来,讲者从传统应用架构和面向机器学习应用优化的架构,并介绍了机器学习数据库的使用感受、效率和成本,并从容灾、硬件介质等角度阐述了软硬件合一的数据库设计。最后,讲者介绍了团队与其他公司和机构的合作情况,并对未来研究方向作了展望。

图6 机器学习数据库的业务架构

报告题目:开源芯片与敏捷设计:现状与趋势
报告嘉宾:包云岗,中科院研究员、智源研究员
报告内容:
开源芯片是中国芯片产业实现弯道超车的良机,其中RISC-V是目前普遍公认的有前景的开源指令集。
讲者首先分享了构建开源芯片生态的价值意义和相关经验,并分析了现有研究平台OpenSPARC和MicroBlade的优劣,引出项目的实际需求。接下来从开源芯片的创新机会和开源芯片实践两方面进行详细介绍。其中创新机会介绍了指令集、处理器微架构设计实现和设计流程和工具三个方面;在开源芯片实践中,详细介绍了项目系统工作,包括①开源高性能RISC-V核,②处理器微架构设计和敏捷性能评测框架,在此过程中为CPU设计引入面向对象的设计范式,③开源EDA工具链核云平台SERVE,并用实际案例介绍了系统上线使用效果。最后提出未来畅想,例如共享工厂,共享设计工具、IP和库,结合芯片设计团队数量多的优势,针对研究和应用场景组合出更多解决方案。

图7 开源芯片的层次

预训练模型论坛

报告题目:大规模多模态预训练模型M6研发实践与落地应用
报告嘉宾:杨红霞,达摩院智能计算实验室资深算法专家
报告内容
报告介绍了阿里巴巴联合清华大学共同研发的中文多模态预训练模型M6(Multi-Modality to MultiModality Multitask Mega-transformer)。在千亿参数阶段,模型在32张V100-32GB GPU上基于自注意力的Transformer模块进行多任务预训练,在多个中文多模态下游任务中表现达到业界最优;在万亿参数阶段,模型在480张V100=32GB GPU上通过k top-1稀疏激活的方式解决MoE的负载不均衡问题,在多模态领域比肩世界一流的BERT、GPT、Switch Transformer水平。
模型已十分有效地落地应用于阿里的下游任务中,报告人展示了针对商品的文本-图像生成和长尾词搜索效果,并展望了M6的商业化对制造业的影响。

图8 M6预训练模型介绍
图9 M6模型商业化介绍

报告题目:FastMoE和蛋白质预训练的新进展
报告嘉宾:裘捷中,清华大学博士生
报告内容
在5月31日的报告《大规模多模态预训练》中,报告嘉宾介绍了FastMoE V0.2的框架与特性。在今天的报告中,报告嘉宾继续分享了蛋白质预训练模型ProteinLM的最新进展。ProteinLM支持基于MegatronLM的高性能预训练和微调,其架构包括24层Transformer,参数量为30亿,在Contact Prediction等具体的下游任务中,模型预测结果已十分接近真实情况。

图11 预训练模型与微调的区别
图12 模型性能对比