加载中…
个人资料
海阔天空
海阔天空
  • 博客等级:
  • 博客积分:0
  • 博客访问:41,820
  • 关注人气:19
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

强化学习---资料总结--

(2017-06-13 16:10:18)
七、强化学习总结

之前介绍的只是强化学习的其中一小部分,强化学习还包括很多内容:

比如在MDP中如果出现了不可观测的情况,它就不属于Markov了,有一个专门的方向如POMDP来解决这个问题。

还有Learning from Demonstrations,意为人先做出示范,然后从示范数据中教智能体。例如AlphaGo,一开始训练的时候并不是直接上强化学习,而是首先搜集了很多人类对打的数据。

而怎么去设计奖赏函数也会有很多不同的方法。

下面总结一下两个大家比较关心的问题。

  • 第一个问题:强化学习是否已经发展成熟?如何选择强化学习问题中的算法?

如果碰到比较简单的强化学习问题,可以用基于值函数的方法,比如DQN,更复杂的问题可以用Policy Gradient的方法做策略梯度。

但是从目前的发展现状两看,强化学习的成熟度远远不够,也就是说在强化学习领域,还有很大的提升的空间,有可能能做出一个性能更好的全新的算法。但大规模的问题现在还是很难解决。这个大规模指是它的状态空间大,并且步数特别多。

  • 第二个问题:在实际领域应用强化学习,会遇到什么瓶颈?

1、 强化学习需要探索,在很多场景带来风险。

以推荐股票为例。我本来已经有一个还可以的推荐策略,每天能给我带来100万的收入。但是现在为了训练强化学习,要做探索,尝试一些随机的股票。假如告诉你这个探索会导致今天一下子要损失好几百万,而一个月以后可以赚回1个亿,那你就要衡量一下这里看面的风险有多高,敢不敢用了。

2、 为什么强化学习在很多游戏上面用的比较多?

游戏在计算机中运行,速度高、代价低。如果放到现实世界中来运行,比如放在推荐系统线上运行,那它就必须和真实的环境打交道。它的学习过程需要不断探索,而部署在真实环境里可能会遇到很多麻烦,如果能有一个比较好的模拟器,就可以减少这些麻烦;另外,如果有比较好的监督学习数据的话,也可以做一个初始的策略,不过这个策略可能一开始起点要稍微高一点。做机器人一般也有一个机器人模拟器,所以一般先在模拟器里面做,做好策略再放到机器人身上来学。但是其他现实世界问题,在模拟器里可能就没有那么好做了。

八、强化学习资源推荐书籍

强化学习的书不多,最经典的书是Richard S. Sutton的教科书;Masashi Sugiyama的书属于专著;Reinforcement Learning: State-of-the-Art属于文集,覆盖面比较广,但需要读者有一定基础;还有一些讲述MDP的书;另外,在机器学习的书里面也会提到强化学习。

线上资源

OpenAI Gym:一个基础的强化学习平台,里面很多环境,研究人员可以在上面做实验,它对这个领域有很大的促进。还有AlphaGo技术负责人David Silver的线上教学视频,讲的非常好。

论文发表地

强化学习论文主要发表在AI期刊和会议上,期刊有Artificial Intelligence, JAIR, JMLR, Machine Learning, JAAMAS等,会议有IJCAI, AAAI, NIPS, ICML, ICLR, AAMAS, IROS等等。

以上就是俞扬博士的演讲, AI科技评论。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有