要約
この論文では、ドリフトのない非線形システム向けに、連続時間適応アクター クリティカル強化学習 (RL) コントローラーを開発します。
このようなシステムの実際的な例としては、画像ベースのビジュアル サーボ (IBVS) や車輪付き移動ロボット (WMR) があります。これらのシステム ダイナミクスには、ドリフト項のない制御有効性マトリックスにパラメトリックな不確実性が含まれています。
入力項の不確実性は、既存の方法を使用した連続時間 RL コントローラーの開発に課題をもたらします。
この論文では、アクタークリティックまたは同期ポリシー反復 (PI) ベースの RL コントローラーに、制御有効性行列の未知のパラメーターを推定するための同時学習 (CL) ベースのパラメーター更新則を提示します。
無限水平値関数の最小化目標は、最適に近い制御努力で現在の状態を望ましい状態に調整することによって達成されます。
提案されたコントローラーは閉ループの安定性を保証し、シミュレーション結果は IBVS および WMR の例を使用して提案された理論を検証します。
要約(オリジナル)
In this paper, a continuous-time adaptive actor-critic reinforcement learning (RL) controller is developed for drift-free nonlinear systems. Practical examples of such systems are image-based visual servoing (IBVS) and wheeled mobile robots (WMR), where the system dynamics includes a parametric uncertainty in the control effectiveness matrix with no drift term. The uncertainty in the input term poses a challenge for developing a continuous-time RL controller using existing methods. In this paper, an actor-critic or synchronous policy iteration (PI)-based RL controller is presented with a concurrent learning (CL)-based parameter update law for estimating the unknown parameters of the control effectiveness matrix. An infinite-horizon value function minimization objective is achieved by regulating the current states to the desired with near-optimal control efforts. The proposed controller guarantees closed-loop stability and simulation results validate the proposed theory using IBVS and WMR examples.
arxiv情報
著者 | Ashwin P. Dani,Shubhendu Bhasin |
発行日 | 2024-06-13 13:27:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google