加载中…
个人资料
王江源
王江源
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,379,685
  • 关注人气:1,086
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

深度增强学习(DQN)的各种改进

(2017-02-01 16:17:22)
标签:

深度学习

深度增强学习

机器学习

人工智能

分类: 机器学习


DeepMind2013年提出DQN模型称为NIPS DQN,主要是增加了经验回放(experience replay)的功能,上篇文章已经介绍。此后,相继有各种改进模型发表。


Nature DQN

DeepMind2015年提出,论文:Human-level control through deep reinforcement learning。主要的改进是增加Target Q网络。也就是我们使用一个单独的Q网络来计算目标Q值,这样做的目的是为了减少目标值与当前值的相关性。相应的损失函数如下:

深度增强学习(DQN)的各种改进

这里Target Q网络的结构和当前的Q网络结构一样,只不过参数不一样,如上面公式中的w-。那么Target Q网络的参数得到呢?还是从Q网络中来,只不过是延迟更新。也就是每次训练了一段时间后再将当前Q网络的参数值复制给Target Q网络。

具体算法如下:

深度增强学习(DQN)的各种改进

改进的效果还是不错的,下图引用自Nature的论文。

深度增强学习(DQN)的各种改进

 

其他改进:

深度增强学习(DQN)的各种改进

上图选自David SilverICML 2016中的Tutorial::深度增强学习Tutorial

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有