2024年春季学期视觉计算实验室第二次论文研读预告

时间:2024年3月8日(周五) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:魏楷臻、成磊峰

Part1

分享者:魏楷臻

分享内容:

[1] Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, and Yaodong Yang. Safe RLHF: Safe Reinforcement Learning from Human Feedback. The Twelfth International Conference on Learning Representations (ICLR 2024).

[2] Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang. SafeDreamer: Safe Reinforcement Learning with World Models. The Twelfth International Conference on Learning Representations (ICLR 2024).

论文简介:

[1] 随着大型语言模型(LLMs)的发展,在AI的性能和安全性之间取得平衡就显得尤为重要。OpenAI也提出了3H(Helpful & Honest & Harmless)标准来衡量一个大模型的安全性,并且对所有大模型进行了对齐(对齐人类价值观)。基于人类反馈的强化学习(RLHF)是LLM在生成领域的重要训练范式。但是在LLM训练过程中,模型Helpful和Harmless之间的平衡是一个巨大挑战。论文提出了基于人类反馈的安全强化学习(Safe RLHF),这是一种全新的人类价值观对齐算法。Safe RLHF明确地解耦了人类对Helpful和Harmless的偏好,并允许训练单独的奖励和成本模型。我们将大语言模型的安全问题形式化为在满足特定成本约束的情况下使奖励函数最大化的优化任务。利用拉格朗日方法解决该约束问题,Safe RLHF在微调过程中动态调整两个目标之间的平衡。通过Safe RLHF进行了三轮微调,与现有算法相比,我们展示了一种减轻有害响应的能力,同时提高了大语言模型的性能。

[2] 强化学习(RL)在现实应用中的部署往往因为其不能满足安全标准而受到限制。现有的安全强化学习(SafeRL)方法依赖于成本函数来增强安全性,在复杂的场景中,特别是在纯视觉任务中,往往无法实现零成本。这些限制主要是由于模型的不准确和采样效率不足。事实证明,世界模型(World Models)在减轻这些缺点方面是有效的。这篇论文提出了SafeDreamer,这是一种将拉格朗日方法结合到Dreamer框架内的世界模型新算法。SafeDreamer在各种任务上实现了零成本性能,跨越低维和视觉输入,在Safety-Gymnasium上展示了其在强化学习任务中平衡性能和安全性的有效性。

Part2

分享者:成磊峰

分享内容:

[1] Zhuosheng Zhang,Aston Zhang, Mu Li, Alex Smola. AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS. arXiv.2210.03493.2022.

[2] Xuezhi Wang, Jason Wei,Dale Schuurmans,Quoc Le,Ed H. Chi,Sharan Narang,Aakanksha chowdher,Denny Zhou. SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS. arXiv.2203.11171.2023.

论文简介:

[1] 大型语言模型(LLM)可以通过生成中间推理步骤来执行复杂推理,这些步骤称为思维链(CoT)提示。CoT提示有两种主要模式。一种方法是利用“让我们一步一步地思考”这样的简单提示;另一种方法是一个接一个地使用一些手动提示,每个提示由一个问题和一个推理链组成,从而得出答案。第二种方法的优越性能取决于人工制作特定于任务的提示。本文研究表明,通过利用LLM生成推理链,可以消除这种人工工作,也就是说,让我们不仅一步一步地思考,而且一个接一个地思考。然而,这些生成的链通常伴随着错误。为了减轻这种错误的影响,文中提出了一种自动提示方法:AutoCoT,它对具有多样性的问题进行采样,并生成推理链来构建提示。实验结果证明,在使用GPT-3的10个公共基准推理任务中,Auto-CoT始终匹配或超过需要手动设计演示的CoT范式的性能。

[2] 本文提出了一种新的解码策略——自一致性,以取代思维链提示中使用的幼稚贪婪解码。首先,对不同的推理路径进行抽样,而不是只取贪婪的推理路径;然后,通过将抽样的推理路径边缘化来选择最一致的答案。自洽利用了一种直觉,即一个复杂的推理问题通常允许多种不同的思维方式导致其唯一的正确答案。广泛的实证评估表明,自一致性在一系列流行的算术和常识性推理基准上提高了思维链提示的性能,包括GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)和ARC-challenge(+3.9%)。