数据驱动的保证收敛速率最优输出调节

引用本文
姜艺, 范家璐, 柴天佑. 数据驱动的保证收敛速率最优输出调节.
自动化学报, 2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200932?viewType=HTML
文章简介
关键词
保证收敛速率, 最优输出调节, 强化学习, 值迭代
摘
针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性.
引
在实际的控制器设计问题中, 通常是希望将被控对象的输出跟踪给定的设定值或给定的期望轨迹, 即实现输出跟踪. 对于前者, PID控制器、模型预测控制器是一类经典的解决方案. 对于后者, 该问题通常可以建立成一类输出调节问题, 该问题的目标通常包括两部分, 设计稳定的控制器使得输出信号与给定参考轨迹的误差是渐近稳定的, 并且能够完全可以克服外部系统所产生扰动信号对系统所产生的影响. 然而, 解决输出调节问题通常依赖于已知的精确模型参数, 而在一些特殊情况下该要求是难以满足的.
针对模型未知的被控对象的输出跟踪问题, 一些专家学者提出了基于自适应的控制方法, 如模型参考自适应控制、无模型自适应控制、神经网络自适应控制, 这些方法可以在部分模型知识未知的情况下, 很好的实现输出跟踪. 而在有些情况下, 控制器目标需要使得最小化给定的性能指标, 同时希望系统的动态性能满足一定要求, 这使得需要设计最优自适应控制器.
为解决最小化给定的性能指标问题, 一些专家学者提出了基于强化学习的自适应控制方法, 该方法通过与未知被控对象的交互来更新控制策略, 使得控制器是最优的. 对于跟踪问题, 主要有两类基于强化学习的方法, 一类是将跟踪问题定义为一类最优二次型跟踪问题, 另一类是基于输出调节理论的最优输出调节问题. 利用前一类方法, 文献[10-11]与文献[12-15]分别解决了连续与离散线性系统的最优跟踪控制问题, 文献[16]与文献[17-19]分别解决了连续与离散非线性系统的最优跟踪控制问题. 利用后一类方法, 文献[20-23]与文献[24-26]分别解决了连续与离散线性系统的最优输出调节问题, 文献[27]与文献[28]分别解决了连续与离散非线性系统的最优输出调节问题. 上述方法是基于状态反馈与策略迭代的方法, 而对于系统状态难以在线测量的系统, 上述方法不能直接应用, 针对这个问题, 文献[29]与文献[30]分别设计了基于输出反馈的控制器解决了最优跟踪控制问题与最优输出调节问题. 对于动态性能要求, 文献[31]针对单无人机对单目标的环航跟踪问题, 设计了飞行轨迹快速收敛到期望航迹的控制器. 文献[32]通过设计状态反馈和动态输出反馈控制, 研究了机器人系统的有限时间控制问题. 然而, 上述文献需要利用系统的动态模型参数来设计合适的Lyapunov函数.
为了使系统的动态特性满足预先给定的要求, 同时实现最优自适应控制, 本文提出保证收敛速率的数据驱动线性离散系统最优输出调节方法, 该方法不需要部分模型知识, 与文献[24-25]中的方法与被控对象相比, 该算法不需要稳定的初始控制律, 同时输出方程中输入到输出的前馈增益矩阵不等于0, 利用在线的状态数据、输入数据, 或者在线的输出、输入数据求解得到基于状态反馈与输出反馈最优的输出调节器, 并保证跟踪误差的收敛速率满足预先给定的要求.
本文结构如下: 第1节给出离散线性系统的最优输出调节问题描述, 第2节与第3节分别进行基于状态反馈与输出反馈的自适应最优输出调节器设计, 第4节给出设计方法的收敛性与系统闭环稳定性分析, 第5节利用仿真实验验证本文设计方法的有效性, 第6节为结论.

图
作者简介
姜
2020年获东北大学控制理论与控制工程博士学位. 主要研究方向为工业过程运行控制,网络控制,自适应动制,网络控制,自适应动态规划和强化学习.
E-mail: n22@cityu.edu.hk
范家璐
东北大学流程工业综合自动化国家重点实验室副教授. 2011 年获浙江大学控制科学与工程系博士学位,2009至2010年美国宾夕法尼亚州立大学访问学者. 主要研究方向为工业过程运行控制,工业无线传感器网络与移动社会网络.
E-mail: jlfan@mail.neu.edu.cn
柴天佑
中国工程院院士. 东北大学教授.1985年获东北大学博士学位. 主要研究方向为自适应控制, 智能解耦控制, 流程工业综台自动化理论和方法与技术. 本文通信作者.
E-mail: tychai@mail.neu.edu.cn