加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

部分可观测马尔可夫决策过程(partially observable Markov decision processes ,POMDP)

(2010-11-15 11:12:27)
标签:

杂谈

   部分可观测马尔可夫决策过程(partially observable Markov decision processes ,POMDP) 模型是马尔可夫决策 过程(MDP) 模型的扩展。MDP 模型根据系统当前实际状态做出决策,但是很多情况下,系统的精确状态难以获取。例如,对复杂的机械系统,测量系统状态的传感器信号常受到噪声污染,难以获得系统的精确状态。POMDP 假设系统的状态信息不能直接观测得到,是部分可知的,因而对只有不完全状态信息的系统建模,依据当前的不完全状态信息做出决策。POMDP 的应用领域非常广泛,包括工业(机械维修、结构检查、电梯控制及渔业等) 、科学(机器人控制、生态行为及机器视觉等) 、商业(网络故障发现和修理、分布式数据库查询、行销、问卷调查表设计及团体政策等) 、军事(移动目标搜索、搜索营救、目标辨识及武器分配等) 和社会(教育及医疗诊断等) 等[ 1 ] 。
    目前对POMDP 算法的研究包括精确算法和近似算法。精确算法理论上可以获得最优解,但由于计算复杂性
随着问题的规模呈指数增长,一般只适用于求解一些小规模的问题。因此出现了许多求解POMDP 的近似算法,近
似算法大都以精确算法为基础,精确算是研究和构造近似算法的基础[ 2 ] 。本文在对POMDP 的模型以及性质介绍的基础上,对当前的POMDP 主要精确算法进行了分析,并简要介绍了常用的近似算法。

 

 

摘自 桂林,武小悦,部分可观测马尔可夫决策过程算法综述,系统工程与电子技术,2008 年 6月

0

阅读 收藏 喜欢 打印举报/Report
后一篇:AAA Server
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有