北京智源-京东联合实验室“城市计算夏令营”第11天

课程:Decision Analysis from Human-Genernated spatial-Temporal Data
报告人:李彦华
报告人简介:美国伍斯特理工大学(WPI)计算机学院教授,研究方向主要集中在智慧城市和增强学习。
课程介绍:在日常生活中,很多人类的行为可以建模成序贯的决策过程,即为某个任务目标而做出连续而相关的决策从而最大化任务过程中取得的收益。报告首先介绍时空决策过程中遇到的挑战、利用时空数据决策的步骤以及常用的逆强化学习和模仿学习方法。在此基础上,结合具体应用场景介绍逆强化学习技术的最新的研究成果,即如何通过改变环境特征来实现精准地影响和改变人的决策策略到一个给定的策略。
时空决策遇到的挑战主要由策略策略的多样性,决策因素的复杂性导致。

11111-1

决策因素的复杂性
决策的步骤主要分为两步:1、对决策行为进行建模;2、模仿学习。主要方法分为:MaxEnt IRL、GAIL、CGAIL等。

22222-1

对决策行为进行建模

3333-1

GAIL
李教授介绍了目前研究遇到的挑战,目前的挑战主要分为两个方面:1、Variable –Length Decision Dependency;2、Multi-Agent Imitation Learning

444-1

目前的挑战