2023年秋季学期视觉计算实验室第七次论文研读预告

时间:2023年11月07日(周二) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:成磊峰、魏楷臻

Part1

分享者:成磊峰

分享内容

Dingjun Wu, Jing Zhang, Xinmei Huang. Chain of Thought Prompting Elicits Knowledge Augmentation. arXiv:2307.01640. 2023.

论文简介

知识增强型深层次学习是指将领域知识识别并整合到深层次模型中的一种范式。强化领域知识使开发数据高效、可推广和可解释的深度学习成为可能,包括开放领域的问答和对话生成,以及隐式信息的逻辑推理等;外部知识存在多种来源,可以从常识性知识中提取,也可以从维基百科和Freebase等知识库中检索等。传统方法通常采用特定任务创建检索器来收集相关知识或开发推理器来利用外部知识来源中的逻辑规则。大型语言模型(LLM)具有较强的外部知识的检索和推理能力,已经将大量的知识嵌入到模型的参数中,允许从参数中提供知识,不需要额外的检索器或推理器。最新的思维链(CoT)技术促使LLM生成一系列模仿推理过程得出答案的句子,提高了LLM的推理能力,并已被证明在各种复杂的推理任务中非常有效,包括数学算术问题、常识性问答和逻辑推理等,凸显出了作为一种从LLM检索知识的通用技术潜力。在本文中,作者提出了一种基于CoT-KA的方法从LLM中检索知识,用于知识增强深度学习。该方法利用LLM作为知识来源,利用CoT提示以支持从输入到答案的下游推理,利用GPT-3  (1750亿个参数)API生成CoTs,基于预训练语言模型(PLM)进行微调,使用ALBERT)和DeBERTa作为任务相关模型,使用11个基准来评估模型的性能,包括常识推理,日期理解,算术推理、符号推理等。CoT-KA与传统的KADL方法不同,不需要额外的知识检索或单独的知识推理模型,准确性超过了LLM上的Few-shot-CoT和Zero-Shot-CoT。

图1. 知识增强型方法外部知识来源框架图

Part2

分享者:魏楷臻

分享内容

Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai, "Towards All-in-One Pre-Training via Maximizing Multi-Modal Mutual Information," 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 2023.

论文简介

多种预训练策略(有监督预训练、弱监督预训练和自监督预训练)和基于不同模式/来源的数据相结合,可以极大地改善大规模模型的训练。目前的大模型预训练采用了Multi-stage预训练系统,其中复杂的 pipeline 可能会增加预训练的不确定性和不稳定性。论文首先提出了一个通用的多模态互信息公式,作为统一的优化目标,并证明了所有现有的方法(有监督预训练、弱监督预训练和自监督预训练)都是该框架下的特例。在这种统一的优化理论框架下,论文呢提出了一种 all-in-one 的单阶段预训练方法,称为Maximizing Multi-stage Mutual Information 预训练(M3I预训练)。论文成功地预训练了十亿级参数的图像 backbone,并在各种基准测试(包括 ImageNet 分类、COCO 目标检测、LVIS 长尾目标检测和 ADE20k 语义分割)上实现了最先进的性能。

图2. M3I预训练模型概览