七、强化学习总结
之前介绍的只是强化学习的其中一小部分,强化学习还包括很多内容:
比如在MDP中如果出现了不可观测的情况,它就不属于Markov了,有一个专门的方向如POMDP来解决这个问题。
还有Learning from Demonstrations,意为人先做出示范,然后从示范数据中教智能体。例如AlphaGo,一开始训练的时候并不是直接上强化学习,而是首先搜集了很多人类对打的数据。
而怎么去设计奖赏函数也会有很多不同的方法。
下面总结一下两个大家比较关心的问题。
-
第一个问题:强化学习是否已经发展成熟?如何选择强化学习问题中的算法?
如果碰到比较简单的强化学习问题,可以用基于值函数的方法,比如DQN,更复杂的问题可以用Policy Gradient的方法做策略梯度。
但是从目前的发展现状两看,强化学习的成熟度远远不够,也就是说在强化学习领域,还有很大的提升的空间,有可能能做出一个性能更好的全新的算法。但大规模的问题现在还是很难解决。这个大规模指是它的状态空间大,并且步数特别多。
-
第二个问题:在实际领域应用强化学习,会遇到什么瓶颈?
1、 强化学习需要探索,在很多场景带来风险。
以推荐股票为例。我本来已经有一个还可以的推荐策略,每天能给我带来100万的收入。但是现在为了训练强化学习,要做探索,尝试一些随机的股票。假如告诉你这个探索会导致今天一下子要损失好几百万,而一个月以后可以赚回1个亿,那你就要衡量一下这里看面的风险有多高,敢不敢用了。
2、 为什么强化学习在很多游戏上面用的比较多?
游戏在计算机中运行,速度高、代价低。如果放到现实世界中来运行,比如放在推荐系统线上运行,那它就必须和真实的环境打交道。它的学习过程需要不断探索,而部署在真实环境里可能会遇到很多麻烦,如果能有一个比较好的模拟器,就可以减少这些麻烦;另外,如果有比较好的监督学习数据的话,也可以做一个初始的策略,不过这个策略可能一开始起点要稍微高一点。做机器人一般也有一个机器人模拟器,所以一般先在模拟器里面做,做好策略再放到机器人身上来学。但是其他现实世界问题,在模拟器里可能就没有那么好做了。
八、强化学习资源推荐书籍
强化学习的书不多,最经典的书是Richard S. Sutton的教科书;Masashi Sugiyama的书属于专著;Reinforcement Learning: State-of-the-Art属于文集,覆盖面比较广,但需要读者有一定基础;还有一些讲述MDP的书;另外,在机器学习的书里面也会提到强化学习。
线上资源
OpenAI Gym:一个基础的强化学习平台,里面很多环境,研究人员可以在上面做实验,它对这个领域有很大的促进。还有AlphaGo技术负责人David Silver的线上教学视频,讲的非常好。
论文发表地
强化学习论文主要发表在AI期刊和会议上,期刊有Artificial Intelligence, JAIR, JMLR, Machine Learning, JAAMAS等,会议有IJCAI, AAAI, NIPS, ICML, ICLR, AAMAS, IROS等等。
以上就是俞扬博士的演讲,更多内容请继续关注AI科技评论。