2023年秋季学期视觉计算实验室第十四次论文研读预告

时间:2023年12月26日(周二)09:30

地点:望江校区基础教学楼B座318实验室

分享者:魏楷臻、成磊峰、梁宇轩

Part1

分享者:魏楷臻

分享内容

[1] Wenchi Yang, Giuseppe Marra, , Gavin Rens and Luc De Raedt. Safe Reinforcement Learning via Probabilistic Logic Shields. Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, pages 5739-5749.

[2] Han Zheng, Xufang Luo, Pengfei Wei, Xuan Song, Dongsheng Li, and Jing Jiang. Adaptive policy learning for offline-to-online reinforcement learning. Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence, pages 11372–11380.

论文简介

[1] 安全强化学习旨在在保持安全的同时学习最佳策略。安全强化学习的一种流行解决方案是 shielding,它使用逻辑安全约束来防止强化学习代理采取不安全的操作。然而,传统的屏蔽技术难以与连续的端到端深度强化学习方法集成。这篇文章引入了概率逻辑策略梯度(PLPG)。PLPG 是一种基于模型的安全强化学习方法,它使用概率逻辑编程将逻辑安全约束建模为可微函数。PLPG 可以无缝应用于任何策略梯度算法,同时仍提供收敛保证。与其他最先进的shielding技术相比,PLPG 可以学习到更安全、更有价值的策略。

[2] 传统的强化学习方法需要一个环境来收集新数据,这在部分在线交互成本高昂的场景下很难实现。离线强化学习通过直接从先前收集的数据集中学习,提供了一种替代解决方案。但是,如果离线数据集的质量较差,则策略的性能会不理想。在这篇论文中,作者设计了一种从离线到在线的方法。基于离线数据集训练智能体,然后进行在线训练,并且提出了一种称为自适应策略学习的框架,以有效利用离线和在线数据。这种简单而有效的方法提供了一种混合离线和在线RL的方法。文章对常用的连续控制任务进行了广泛的实验,结果表明,即使离线数据集(例如随机数据集)质量较差,算法也能以较高的样本效率学习专家策略。

Part2

分享者:成磊峰

分享内容

[1] Jason Wei,Xuezhi Wang,Dale Schuurmans等. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv.2201.11903v6. 2023.

[2] Hao Fei, Bobo Li, Qian Liu等. Reasoning Implicit Sentiment with Chain-of-Thought Prompting. arXiv.2305.11255v4. 2023.

论文简介

[1] 文中探索了如何生成思维链(一系列中间推理步骤),并显著提高大型语言模型执行复杂推理的能力。特别是,通过一种叫做思维链提示的简单方法,展示了这种推理能力是如何在足够大的语言模型中自然出现的,提供了一些思维链的演示作为提示的范例。在三个大型语言模型上的实验表明,思维链提示提高了一系列算术、常识和符号推理任务的性能。经验上的收获可能是惊人的。例如,在GSM8K的数学单词问题基准测试中,仅使用八个思维链示例就可以实现最先进的精度,甚至超过了经过微调的带有验证器的GPT-3。

[2] 情感分析(SA)的目的是根据输入文本检测对给定目标的情感极性,情景分析可以分为外显情景分析(ESA)和内隐情景分析(ISA)。与ESA不同,ISA更具挑战性,因为ISA的输入只包含事实描述,没有直接给出明确的意见表达。在隐式情感分析中,意见线索以隐式和模糊的方式出现,在没有真正理解情绪是如何被激发的情况下,传统的SA方法对ISA是无效的,因此,检测内隐情绪需要常识和多跳推理能力来推断意见的潜在意图。受最近的思维链(CoT)思想的启发,文中引入了一个三跳推理(THOR) CoT框架来模拟ISA的类人推理过程,设计了一个三步提示原则,逐步诱导隐含方面,意见,最后推断出情感偏好。

Part3

分享者:梁宇轩

分享内容

[1] Anqi Cao, Ji Lan, Xiao Xie, Hongyu Chen, Xiaolong Zhang, Hui Zhang, and Yingcai Wu. Team-Builder: Toward More Effective Lineup Selection in Soccer. IEEE transactions on visualization and computer graphics, 2023, Vol.29 (12), p.5178-5193.

论文简介

[1] 阵容选择是足球比赛中一项必不可少的重要任务。为了赢得比赛,教练必须考虑各种因素并根据计划的阵型选择合适的球员。人们提出了基于计算的工具来帮助教练完成这项复杂的任务,但它们通常基于过于简化的球员表现模型,不支持交互式分析,并且忽略了教练的输入。在本文中,作者提出了一种通过解决两个问题来对足球阵容选择进行可视化分析的方法,即描述生成最佳阵容所涉及的基本因素,并支持教练驱动的阵容选择可视化分析。作者开发了一个阵容选择模型,整合了球员行动的空间区域和与对手球员的防守互动等重要因素;开发了可视化系统Team-Builder,帮助教练通过多个协调视图来控制阵容生成、解释和比较的过程。系统的实用性和有效性通过现实世界足球赛事数据集的两个案例研究得到了证明。