时间:2024年6月7日(周五)09:30
地点:望江校区基础教学楼B座318实验室
分享者:魏楷臻、周寅杰
Part1
分享者:魏楷臻
分享内容:
[1] Jesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Taïga,Yevgen Chebotar, Ted Xiao, AlexIrpan, Sergey Levine, Pablo Samue Castro, Aleksandra Faust, Aviral Kumar, and Rishabh Agarwal. Stop Regressing: Training Value Functions via Classification for Scalable Deep RL. Arxiv:2403.03950.
[2] Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning. The 11th International Conference on Learning Representations (ICLR 2023).
论文简介:
[1] 价值函数是深度强化学习(RL)的核心组成部分,并且主要采用均方误差(MSE)进行回归训练。但是在大模型中实现回归训练极其困难,而有监督学习使用交叉熵损失函数,已经成熟地应用了大模型。因此该论文研究了深度强化学习的扩展性,是否也可以使用分类网络来代替传统的回归训练。该论文证明通过分类网络和交叉熵损失函数训练的价值函数可以显著提高强化学习方法在各种领域的性能和可扩展性。其中包括:在雅达利2600游戏上使用SoftMoEs进行单任务强化学习,在雅达利上使用ResNet进行多任务强化学习,使用Q-transformer进行机器人操作,并在这些任务上取得了最好的结果。通过仔细分析,作者发现使用交叉熵损失函数的分类网络的优势主要在于它能有效抑制基于值的强化学习的一些固有问题,如噪声目标和非平稳性。总的来说,作者认为强化学习使用交叉熵损失函数来训练,可以以很少的成本甚至零成本显著提高深度强化学习的扩展性。
[2] 离线强化学习是强化学习的一个重要范例,主要使用先前收集的静态历史数据集来学习最优策略。标准RL方法在这种情况下往往表现不佳,这是由于在数据集外的动作评估上存在误差。虽然已经提出了各种正则化方法来缓解这个问题,但是策略受限于其表达形式,往往得到的是次优的解决方案。该论文将策略表示为扩散模型,扩散模型是最近一类具有较高表现力的深度生成模型。作者引入了Diffusion Q-Learning,可以使用条件扩散模型来表示策略。论文学习了一个动作价值函数,并在条件扩散模型的训练损失中添加了一个最大化动作价值的项,导致损失函数是在寻求接近行为策略的最优动作。论文展示了基于扩散模型的策略的高度表达性,并且Diffusion Q-Learning展现了出色的性能。作者用一个简单的 2D bandit任务下的多模态行为策略示例说明了论文提出的方法与先前工作相比的优越性,并且证明了该方法可以在大多数D4RL基准任务上实现最先进的性能。
Part2
分享者:周寅杰
分享内容:
[1]Zeng H, Wang X, Wang Y, et al. Gesturelens: Visual analysis of gestures in presentation videos[J]. IEEE Transactions on Visualization and Computer Graphics, 2022.
[2]Ying, Lu, et al. "VAID: Indexing View Designs in Visual Analytics System." Proceedings of the CHI Conference on Human Factors in Computing Systems. 2024.
论文简介:
[1] 恰当的手势可以增强日常沟通和演说中的信息传递和观众参与度。本文提供了一种视觉分析方法,可以帮助专业的公开演讲教练通过分析演示视频来改进他们的手势训练实践。手动检查和探索演说视频中的手势使用情况通常既乏味又耗时,缺乏一种有效的方法来帮助用户进行手势探索。由于手势本质上的时间演化特性及其与语音内容的复杂相关性,这项工作具有挑战性。本文提出了GestureLens的视觉分析系统,可以促进基于手势和基于内容的演说视频中手势使用的探索。具体来说,探索视图使用户能够快速概览手势的空间和时间分布。动态手部动作首先通过手势空间中的热图进行聚合,以揭示空间模式,然后分解为两个相互垂直的时间线以揭示时间模式。关系视图允许用户通过启用链接分析和直观的字形设计来明确探索语音内容和手势之间的相关性。视频视图和动态视图分别显示所选手势的上下文和整体动态运动。两个使用场景以及对专业演说教练的专家访谈证明了GestureLens在促进演说视频的手势探索和分析方面的有效性和实用性。
[2] 可视分析(VA)系统已广泛应用于各个应用领域。然而,VA系统设计复杂,这带来了一个严重的问题:尽管学术界不断设计和实现新的设计,但这些设计很难被后续设计者查询、理解和参考。为了解决这一问题,我们以一种富有表现力和可访问的方式索引可视分析系统设计,将设计转换为结构化格式。我们首先与 VA 设计师进行了研讨会研究,以了解用户对理解和检索 VA 系统专业设计的需求。此后,我们提出了一个索引结构VAID来描述复杂的复合可视化设计,并带有关于其分析任务和视觉设计的全面标签。 VAID的实用性通过用户研究得到了验证。本文工作为增强专业可视化设计的可访问性和可重用性开辟了新的视角。