Observer-Feedback-Feedforward Controller Structures in Reinforcement Learning

要約

タイトル:強化学習におけるオブザーバ・フィードバック・フィードフォワードコントローラ構造

要約:

– 研究では、非線形適応制御に基づく強化学習に構造化されたニューラルネットワークの使用を提案している。
– フォーカスは部分的に観測可能なシステムであり、状態とフィードフォワードオブザーバー用の別々のニューラルネットワークと、状態フィードバックとフィードフォワードコントローラ用の別々のニューラルネットワークを持つ。
– オブザーバダイナミクスは再帰ニューラルネットワークによってモデル化され、コントローラには標準的なネットワークが使用される。
– 提案された構造は計算の複雑さを減らし、1つのニューラルネットワークを使用する場合よりも強化学習ベースのコントローラに分かりやすい構造を与える。
– シミュレーションによって示されるように、提案された構造は追加的かつ主要な利点として、トレーニングが著しく高速になることがある。
– フィードフォワード構造を含める2つの方法が提示され、1つは状態フィードバック制御に関連し、もう1つは古典的なフィードフォワード制御に関連する。
– 後者の方法は、測定された騒音のみを処理する別々の再帰ニューラルネットワークでさらに構造を導入する。
– 非線形のカスケード型ダブルタンクプロセスでシミュレーションで評価された結果、最も構造化された方法が最も優れており、優れたフィードフォワード騒音拒否増益を示している。

要約(オリジナル)

The paper proposes the use of structured neural networks for reinforcement learning based nonlinear adaptive control. The focus is on partially observable systems, with separate neural networks for the state and feedforward observer and the state feedback and feedforward controller. The observer dynamics are modelled by recurrent neural networks while a standard network is used for the controller. As discussed in the paper, this leads to a separation of the observer dynamics to the recurrent neural network part, and the state feedback to the feedback and feedforward network. The structured approach reduces the computational complexity and gives the reinforcement learning based controller an {\em understandable} structure as compared to when one single neural network is used. As shown by simulation the proposed structure has the additional and main advantage that the training becomes significantly faster. Two ways to include feedforward structure are presented, one related to state feedback control and one related to classical feedforward control. The latter method introduces further structure with a separate recurrent neural network that processes only the measured disturbance. When evaluated with simulation on a nonlinear cascaded double tank process, the method with most structure performs the best, with excellent feedforward disturbance rejection gains.

arxiv情報

著者 Ruoqi Zhang,Per Mattson,Torbjörn Wigren
発行日 2023-04-20 12:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク