Valse 2025 - Day2

6月7日,Valse 2025 进入第二天议程。今天的分享包括以下四个部分:程俊龙博士工作IMIS-Bench的海报张贴,一个讲习班(Tutorial):大模型基础理论、结构与微调以及两个研讨会(workshop):从AI到AI4Science:我们的实践与探索和大模型基础理论-从理论视角看待大模型技术发展。

1. IMIS-Bench海报张贴

在Valse组织的海报展示环节,实验室博士生程俊龙展示了最新的研究成果IMIS-Bench,吸引了众多参会人员的目光。海报展示了重要的数据和创新点,成为现场的焦点之一。许多与会者停下脚步,认真阅读,并且与实验室参会成员进行了深入的交流和讨论,分享了实验室的技术细节与未来的研究方向。这样的互动不仅加强了与同行的联系,也为实验室成员的工作赢得了更多关注与认可。

图1:IMIS-Bench海报张贴展示

2. 大模型基础理论、结构与微调

讲者:陈键飞(清华大学)

大模型所需计算成本高昂,而低精度、稀疏等高效训练推理方法均在原有计算基础上引入了近似,可能会引起精度损失。陈教授针对这一问题,介绍了近似梯度下降理论,为高效的近似训练方法的收敛性、收敛速度提供理论保证。基于该理论,陈教授介绍了通过量化和稀疏两条技术路线设计的前馈神经网络计算加速、注意力计算加速、激活压缩、优化器压缩、通信压缩等高效训练推理算法。从机器学习的角度出发,介绍了高效训练的过程中遇到的训练不稳定等问题及克服方法。

图2:Jetfire:全INT8数据流训练架构与逐块量化技术​

3. 从AI到AI4Science:我们的实践与探索

讲者:岳翔宇(香港中文大学)

近年来,人工智能(AI)技术正逐步从通用领域向科学计算(AI4Science)领域深度拓展,用AI赋能各个领域。本次报告中,岳教授结合了AI的背景知识,介绍AI技术与科学研究深度融合的新方法,推动跨学科的探索。以具体案例为基础,介绍了在化学、智能制造、跨学科研究等领域的AI4Science应用。

图3:自然语言指令到3D点云结构的智能生成​

4. 大模型基础理论-从理论视角看待大模型技术发展

讲者:方聪(北京大学)

随机梯度下降算法是求解机器学习问题中的常见算法。在高维学习问题中,随机梯度下降算法的迭代次数往往低于模型参数量,算法对于模型的产生隐式正则效应是模型具有良好泛化的主要原因。在这一研讨会中,方教授介绍了随机梯度下降算法在不同学习情境下求解线性与简单非线性模型的泛化性能,并进行了定量比较。

在线性模型中,方教授分别讲解了算法在不同学习尺度(即样本数与问题维度不同依赖关系)与协变量偏移条件下的学习效率,以理解算法对于学习问题的适应性与涌现发生的条件。在非线性模型,方教授阐明了算法为何能够自适应问题结构,突破一阶算法在离线情形下面临的统计-计算鸿沟(statistical to computational gap)诅咒,并能够自动实现统计推断。

图4:机器学习泛化性证明框架推导