未知非线性零和博弈最优跟踪的事件触发控制设计

引用本文
王鼎, 胡凌治, 赵明明, 哈明鸣, 乔俊飞. 未知非线性零和博弈最优跟踪的事件触发控制设计. 自动化学报, 2023, 49(1): 91−101 doi: 10.16383/j.aas.c220378
Wang Ding, Hu Ling-Zhi, Zhao Ming-Ming, Ha Ming-Ming, Qiao Jun-Fei. Event-triggered control design for optimal tracking of unknown nonlinear zero-sum games. Acta Automatica Sinica, 2023, 49(1): 91−101 doi: 10.16383/j.aas.c220378
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220378
关键词
自适应评判设计,事件触发控制,神经网络,最优跟踪控制,稳定性分析,零和博弈
摘要
设计了一种基于事件的迭代自适应评判算法, 用于解决一类非仿射系统的零和博弈最优跟踪控制问题. 通过数值求解方法得到参考轨迹的稳定控制, 进而将未知非线性系统的零和博弈最优跟踪控制问题转化为误差系统的最优调节问题. 为了保证闭环系统在具有良好控制性能的基础上有效地提高资源利用率, 引入一个合适的事件触发条件来获得阶段性更新的跟踪策略对. 然后, 根据设计的触发条件, 采用Lyapunov方法证明误差系统的渐近稳定性. 接着, 通过构建四个神经网络, 来促进所提算法的实现. 为了提高目标轨迹对应稳定控制的精度, 采用模型网络直接逼近未知系统函数而不是误差动态系统. 构建评判网络、执行网络和扰动网络用于近似迭代代价函数和迭代跟踪策略对. 最后, 通过两个仿真实例, 验证该控制方法的可行性和有效性.
文章导读
在实际应用中,
外部干扰带来的困难总是存在的,
因此在设计控制器时不可避免地需要考虑扰动[1].
近几十年来, 非线性系统的最优控制问题一直是控制工程领域的研究热点. 众所周知, 最优控制问题可以分为最优跟踪[16]和最优调节[17]两大类, 其中, 最优跟踪的实质是使系统的状态跟踪上预设的参考轨迹, 而最优调节的实质是使状态最终收敛到平衡点. 如今, ADP算法已被广泛应用于解决最优轨迹跟踪问题. 文献[18]针对离散时间非线性系统的迭代启发式动态规划算法设计了一个性能指标, 用于解决无限时域最优轨迹跟踪问题. 文献[12]设计了基于执行-评判框架的局部无模型控制器, 用于在线控制系统状态跟踪上目标轨迹. 文献[19]通过转换代价函数, 设计一种新型的跟踪控制方法用于消除跟踪误差. 值得注意的是, 上述方法更倾向于控制模型已知的仿射系统, 而对于模型未知的非仿射系统却难以获得良好的控制效果. 为了有效地解决非仿射系统的跟踪控制问题, 文献[20]基于迭代双重启发式动态规划算法设计了一种数值计算的方法来获得目标轨迹的稳定控制. 在实际应用方面, 文献[21]设计了一种基于折扣广义值迭代的智能算法用于跟踪控制污水处理过程中溶解氧和硝态氮的质量浓度. 如今, 通过采用ADP算法解决轨迹跟踪问题已经得到了广泛的研究. 然而, 对于未知非线性系统零和博弈跟踪控制问题的研究却很少. 在本文中, 将采用数值计算方法求解目标轨迹的稳定控制, 然后根据这个稳定控制来获得跟踪控制律和跟踪扰动律, 进而解决未知非线性系统的零和博弈跟踪控制问题.
在系统稳定控制的基础上, 能源损耗问题已经逐渐成为工业发展的焦点之一. 事件触发控制通过设计一个合适的事件触发条件, 在这个预定义的条件被违反时对系统状态进行采样. 由于与传统的周期性时间触发控制相比, 事件触发控制能够减少控制所需的通信量和计算资源, 因此这种控制模式特别适合于嵌入式系统和网络控制系统[22]. 在事件触发控制过程中, 控制器并不是以连续的方式更新控制律, 而是在控制系统的离散采样时刻瞬间进行更新. 然而, 在两个连续的采样时刻之间存在着最大允许传输间隔, 为了达到预期的性能, 触发间隔通常选择在允许范围之内. 为此, 相关研究者在提出各种事件触发控制方法上做出了大量贡献[22-27]. 文献[23]设计了一种基于事件的近似最优控制器用于解决离散时间非仿射系统的控制约束问题. 文献[24]针对一类仿射离散时间非线性系统, 设计了一种次优的事件触发条件. 文献[25]针对未知非线性系统设计了一种基于事件的迭代自学习控制器, 并从输入到状态稳定性(Input-to-state stability, ISS) 的角度分析了闭环系统的稳定性. 文献[26]和文献[27]采用基于启发式动态规划框架的事件触发控制方法分别解决了离散时间系统和连续时间系统的最优调节问题. 到目前为止, 还没有采用迭代自适应评判的事件触发控制方法解决离散时间未知非线性系统零和博弈跟踪控制问题的结果.
基于此, 本文针对离散时间未知非线性系统设计一种基于事件的近似最优轨迹跟踪算法, 目的在于解决零和博弈轨迹跟踪控制问题并减少计算量. 为了更容易获得近似最优跟踪策略对, 采用迭代自适应评判方法将最优跟踪控制问题转化为最优调节问题. 然后, 设计一个合适的事件触发条件对跟踪策略对进行阶段性更新. 值得注意的是, 事件触发的引入可能导致系统不稳定. 因此, 本文将采用ISS-Lyapunov方法证明被控误差系统是渐近稳定的. 最后, 通过两个仿真实例验证了本文提出算法的有效性.

图

图

图
针对未知非线性系统的零和博弈轨迹跟踪问题, 提出了一种基于迭代自适应评判的事件触发控制方法, 极大地减少了计算量. 首先, 通过建立模型网络得到参考轨迹的稳定控制, 进而将轨迹跟踪问题转化为误差系统的最优调节问题. 然后, 设计一个合适的事件触发条件, 并证明了基于事件的误差系统是渐近稳定的. 最后, 通过两个仿真实例验证了所提算法的可行性和有效性. 目前的研究主要是在理论方向, 将该方法扩展到实际应用场景是未来的工作, 包括基于所提跟踪算法控制污水处理过程中溶解氧和硝态氮的质量浓度.
作者简介
王鼎
北京工业大学信息学部教授.
2009年获得东北大学硕士学位,
2012年获得中国科学院自动化研究所博士学位. 主要研究方向为强化学习与智能控制.
本文通信作者.
E-mail:
胡凌治
北京工业大学信息学部硕士研究生.
主要研究方向为强化学习和智能控制.
E-mail:
赵明明
北京工业大学信息学部博士研究生.
主要研究方向为强化学习和智能控制.
E-mail:
哈明鸣
北京科技大学自动化与电气工程学院博士研究生. 分别于2016年和2019年获得北京科技大学学士和硕士学位.
主要研究方向为最优控制,
自适应动态规划和强化学习.
E-mail:
乔俊飞
北京工业大学信息学部教授.
主要研究方向为污水处理过程智能控制和神经网络结构设计与优化.
E-mail: