加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

基于无模型策略梯度强化学习的未知随机系统最优控制

(2025-11-14 14:34:25)

引用本文

 

杜城龙, 韩洁, 李繁飙, 桂卫华. 基于无模型策略梯度强化学习的未知随机系统最优控制. 自动化学报, 2025, 51(10): 22452255 doi: 10.16383/j.aas.c250156

Du Cheng-Long, Han Jie, Li Fan-Biao, Gui Wei-Hua. Model-free policy gradient-based reinforcement learning algorithms for optimal control of unknown stochastic systems. Acta Automatica Sinica, 2025, 51(10): 22452255 doi: 10.16383/j.aas.c250156

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250156

 

关键词

 

随机系统,最优控制,未知动力学,策略梯度,强化学习

 

摘要

 

针对一类未知动力学马尔科夫随机系统的最优控制问题, 提出两种无模型策略梯度强化学习算法. 首先, 针对模型信息部分未知的马尔科夫随机系统, 基于系统采样数据和耦合李雅普诺夫方程推导出无模型策略梯度的解析形式, 并提出一种部分无模型策略梯度强化学习最优控制算法, 实现对预设性能指标的直接最小化. 由于求解耦合李雅普诺夫方程和计算策略梯度的必要数据均可从系统采样数据同一轨迹提取, 而无需再额外收集采样数据, 降低了算法的采样复杂度. 进一步地, 为完全解除对马尔科夫随机系统模型信息的依赖, 通过随机摄动反馈增益估计策略梯度, 并提出一种完全无模型策略梯度强化学习算法, 实现了马尔科夫随机系统动力学完全未知情况下的最优控制. 最后, 通过仿真结果证明了本文所提两种无模型策略梯度强化学习最优控制算法的高效性与优越性.

 

文章导读

 

实际工业应用中系统不确定性普遍存在, 包括环境扰动、参数摄动、结构变化、工况迁移等, 这些不确定性往往具有随机特性[1], 如车辆系统[2]、电力系统[3]和复杂网络[4], 由此随机系统得到了广泛研究与应用. 与确定性系统相比, 随机系统由于其内含的随机因素, 表现出更为复杂的动态行为[5], 对系统建模、稳定性分析与控制设计提出更高的要求.

 

马尔科夫随机系统作为一类典型的随机系统, 被广泛应用于描述系统参数衍变、工况迁移、操作模式变化等结构随机突变的复杂特性, 即系统依据马尔科夫链在多个运行模态之间相互切换的过程, 在汽车工业、智慧交通、金融经济等多个领域得到深入探索和应用[6−7]. 与此同时, 马尔科夫随机系统的稳定性分析、镇定设计和鲁棒控制作为该领域的基本问题也得到深入的研究[8−11]. 近年来, 一批新的研究成果不断涌现: Zhang[12]提出一种基于积分强化学习的马尔科夫随机系统鲁棒控制算法; Tian[13]提出针对部分已知转移概率和非线性因素的马尔科夫随机系统的鲁棒控制方法; 文献[14−15]设计一种新型的滑模函数, 并通过合成离散时间滑模控制律保证了马尔科夫随机系统的有限时间稳定; 文献[16−18]给出马尔科夫随机系统的随机稳定性判定准则; 随后, 文献[19−20]考虑具有双重切换特性的马尔科夫随机系统, 给出有限时间稳定性判定准则和鲁棒积分滑模镇定设计方法, 进一步推广至离散马尔科夫随机系统并给出指数稳定性判定准则及输出反馈异步滑模控制方法.

 

在此基础上, 最优控制问题作为马尔科夫随机系统控制研究的重要分支, 旨在实现系统稳定运行的同时优化其控制性能[21−22]. 为最小化马尔科夫随机系统的预定义最优性能函数, 研究人员提出了多种优化方法, 如无求逆的迭代算法(Inversion-free iterative algorithm)[21]、随机动态规划方法(Stochastic dynamic programming method)[22]以及基于策略梯度的强化学习(Policy gradient-based reinforcement learning)算法[23−24]. 在这些方法中, 基于策略梯度(Policy gradient, PG)的强化学习算法凭借其算法简洁和适用性广的优势, 可实现直接在参数空间搜索最优控制增益, 已被广泛应用于马尔科夫随机系统的最优控制协议设计. 文献[23]研究了策略梯度方法在马尔科夫随机系统的二次最优控制问题中的全局收敛性. 文献[24]进一步分析了Gauss-Newton策略梯度方法和Natural策略梯度方法在马尔科夫随机系统最优控制中的线性收敛性. 需要强调的是, 这些研究结果均依赖于马尔科夫随机系统的准确模型信息, 属于基于模型的策略梯度强化学习算法[23−24]. 然而, 由于复杂的运行环境、多模态跳变、未建模动力学及其他因素[25−26], 在实际场景中获取马尔科夫随机系统的准确模型信息存在巨大挑战.

 

近年来, 基于学习的控制方法, 如策略迭代(Policy iteration, PI)、值迭代(Value iteration, VI)、策略梯度, 已被广泛应用于线性系统[27−28]和非线性系统[29−32]的研究中. 这些基础研究极大地推动了该领域的发展. 需要注意的是, 这些系统均为确定性系统, 不涉及随机因素. 相比之下, 复杂的随机动力学特性[5]使得现有针对确定性系统的基于学习的控制方法不再适用. 为实现马尔科夫随机系统的最优控制, 同时避免对模型信息的依赖, 学者们提出了无导数的策略梯度方法, 尤其是零阶优化算法[27, 33]. 这些方法通过对反馈增益进行随机摄动来估计策略梯度, 从而避免对模型信息的依赖. 需要注意的是, 因为估计策略梯度需要完整的系统轨迹, 所以这种基于随机摄动的方法会增加一定的采样复杂度. 为此, 本文提出一种部分无模型策略梯度强化学习最优控制算法, 通过马尔科夫随机系统输入输出轨迹数据和耦合 Lyapunov 方程解, 得到策略梯度的解析形式, 降低了采样复杂度. 其中, 耦合Lyapunov方程的解无需额外采集数据即可获得, 由此在显著降低数据采样率的同时通过学习获得了马尔科夫随机系统的最优控制协议. 此外, 在模型信息完全未知的情况下, 通过对反馈增益进行随机摄动估计策略梯度, 提出完全无模型的策略梯度强化学习最优控制算法, 彻底避免了对所有模型信息的依赖.

 

本文的主要贡献总结如下:

 

1) 针对部分未知动力学马尔科夫随机系统的最优控制问题, 提出一种具有高采样效率的部分无模型策略梯度强化学习算法. 基于马尔科夫随机系统采样数据和耦合Lyapunov方程解, 推导得到强化学习策略梯度的显式解析形式, 显著降低了采样复杂度.

 

2) 所提部分无模型策略梯度强化学习算法中的耦合Lyapunov方程的解, 可以通过无模型的方式迭代求解解耦后的Lyapunov方程获得. 与传统方法相比, 本算法仅需利用马尔科夫随机系统相同轨迹数据即可同时求解Lyapunov方程解和策略梯度, 而在执行所提算法时无需采集额外的采样数据.

 

3) 进一步提出一种完全无模型策略梯度强化学习的最优控制算法, , 在模型信息完全未知的情况下, 通过反馈增益随机摄动估计强化学习的策略梯度, 彻底避免了对所有模型信息的依赖. 与部分无模型策略梯度强化学习算法相比, 完全无模型策略梯度强化学习算法提供了一种基于摄动采样的数值方法, 有望应用于更复杂的场景.

基于无模型策略梯度强化学习的未知随机系统最优控制

1  算法1的性能指标

基于无模型策略梯度强化学习的未知随机系统最优控制

3  算法2的性能指标

基于无模型策略梯度强化学习的未知随机系统最优控制

5  系统模态演化

 

本文针对具有部分或完全未知动力学的马尔科夫随机系统, 设计了部分无模型和完全无模型的基于策略梯度的强化学习算法, 以解决其最优控制问题. 首先, 通过获取策略梯度的解析形式, 开发了一种部分无模型的策略梯度强化学习算法, 从而提高了学习过程中的采样效率, 解决了部分未知动力学马尔科夫随机系统的最优控制问题. 然后, 通过对反馈增益的随机摄动估计策略梯度, 设计了一种完全无模型的策略梯度强化学习算法, 该算法不依赖马尔科夫随机系统的任何模型信息, 解决了完全未知动力学马尔科夫随机系统的最优控制问题. 通过数值仿真验证了所提出策略梯度强化学习算法的有效性和可行性. 在未来的研究中, 我们将进一步探索具有更高采样效率的完全无模型策略梯度强化学习算法, 并致力于解决控制增益初始约束可行性的问题.

 

作者简介

 

杜城龙

中南大学自动化学院副教授. 2016年获得哈尔滨工业大学学士学位, 2022年获得中南大学博士学位. 主要研究方向为多智能体强化学习, 分布式控制与优化, 能源交通一体化和低空飞行器. E-mail: chenglong_du@csu.edu.cn

 

韩洁

中南大学自动化学院副教授. 2020年获得中南大学博士学位. 主要研究方向为复杂工业过程智能建模与优化, 工业大模型和智能决策方法. E-mail: hanjie@csu.edu.cn

 

李繁飙

中南大学自动化学院教授. 2015年获得哈尔滨工业大学博士学位. 主要研究方向为复杂工业过程智能控制与优化, 空天飞行器智能控制. 本文通信作者.E-mail: fanbiaoli@csu.edu.cn

 

桂卫华

中国工程院院士, 中南大学自动化学院教授. 主要研究方向为复杂工业过程建模、优化与控制应用. E-mail: gwh@csu.edu.cn

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有