2019年秋季学期视觉计算实验室第五周论文研读预告

时间: 2019年10月25日 09:00
地点: 望江基础教学楼B座318实验室
研读成员: 闫建荣
研读内容:
1. 论文分享
[1] LantaoYu,WeinanZhang,JunWang,andYongYu.2017.SeqGAN:Sequencegenerativeadversarialnetswithpolicy gradient. In AAAI. 2852–2858.
[2] Kevin Lin, Dianqi Li, Xiaodong He, Zhengyou Zhang, and Ming-Ting Sun. 2017. Adversarial ranking for language generation. arXiv preprint arXiv:1705.11001 (2017).
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems, 6000–6010.
在本次论文研读中,讲者分享两篇有关文本的生成对抗网络。论文[1]工作围绕文本生成对抗网络优化的基础,提出了将Policy Gradient算法和蒙特卡洛树搜索应用到文本GAN进行优化;论文[2]工作在论文[1]的基础上,给出一个参考组来分析和排列人类书写和机器编写句子的集合,这两篇文章都是关于文本的生成对抗网络,应小伙伴的要求接下来还将介绍一些关于attention的基础概念。
论文简介:
[1] 这篇文章的核心思想是将生成对抗网络(GAN)与强化学习(RL)的Policy Gradient算法结合到一起,标准的GAN在处理像序列这种离散数据时会遇到困难,主要体现在两个方面:(1)Generator难以传递梯度更新,标准GAN首先被应用于图像中,图像的参数(如像素)是连续值易于微分,利用梯度下降可以对其进行优化,而序列数据作为离散数据不能微分,因此难以将梯度更新从判别模型传递到生成模型进行优化;(2)Discriminator难以评估非完整序列,一旦生成整个序列,就很难平衡当前得分与未来得分。
对于前者,作者给出的解决方案即把整个GAN看作一个强化学习系统,用Policy Gradient算法更新Generator的参数;对于后者,作者则借鉴了蒙特卡洛树搜索(Monte Carlo tree search,MCTS)的思想,对任意时刻的非完整序列都可以进行评估。
111

图1:seqGAN框架。左:D在实际数据和G生成的数据上进行训练;右:G在策略梯度上进行训练,最终的奖励信号由D提供,并通过蒙特卡罗搜索传回中间动作值。

[2] GAN在合成数据方面取得了巨大成功,现有的GAN将判别器限制为二元分类器,对需要使用丰富结构来描述的任务,诸如自然语言描述之类的任务,限制了合成输出的任务的学习能力。在本文中,作者提出了一种新颖的生成对抗网络RankGAN,用于生成高质量的语言描述。RankGAN不是通过训练判别器来学习和为个体数据样本分配绝对二元谓词,而是通过给出一个参考组来分析和排列人类书写和机器编写句子的集合。通过集体查看一组数据样本并通过相对排名分数评估其质量,判别器能够进行更好的评估,这反过来有助于发生器更好的学习,RankGAN借鉴SeqGAN通过策略梯度技术进行优化。
222

图2:RankGAN框架。 H表示从人写句子中采样的句子。G是由生成器Gθ生成的句子。排序器Rφ的输入由一个合成序列和多个人写句子组成。给定由人写的参考句子U,我们根据相对分数对输入句子进行排名。在该图中,展示了生成器试图欺骗排序器使合成句子相对于参考句子排在顶部。

[3] 接下来还将介绍一些attention的基础概念,并对Google的transformer框架进行简单介绍。
333

图3:Transformer框架图
  1. 小伙伴分享强化学习算法
    强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。我们将由以下几个方面来介绍强化学习:
    (1)强化学习的基本概念
    (2)强化学习的经典算法
    (3)深度强化学习的经典算法
    (4)基于DQN的Flappy Bird效果展示
    444
图4:强化学习原理示意图