要約
強化学習による規制や追跡などの制御問題に対処する場合、多くの場合、取得したポリシーが、導入前に必要な整定時間や定常状態誤差などの重要なパフォーマンスと安定性の基準を満たしていることを保証することが求められます。
この必要性を動機として、我々は、(i) 最適な政策が指定された制御要件と一致する軌道を生成することを保証し、(ii) 特定の政策がそれらを満たしているかどうかを評価できるようにする、一連の結果と体系的な報酬形成手順を提示します。
OpenAI Gym の 2 つの代表的な環境、倒立振子のスイングアップ問題と月着陸船で実施された包括的な数値実験を通じて、アプローチを検証します。
表形式と深層強化学習の両方の手法を利用した私たちの実験では、提案したフレームワークの有効性が一貫して確認されており、規定の制御要件へのポリシーの遵守を保証する上でのその有効性が強調されています。
要約(オリジナル)
In addressing control problems such as regulation and tracking through reinforcement learning, it is often required to guarantee that the acquired policy meets essential performance and stability criteria such as a desired settling time and steady-state error prior to deployment. Motivated by this necessity, we present a set of results and a systematic reward shaping procedure that (i) ensures the optimal policy generates trajectories that align with specified control requirements and (ii) allows to assess whether any given policy satisfies them. We validate our approach through comprehensive numerical experiments conducted in two representative environments from OpenAI Gym: the Inverted Pendulum swing-up problem and the Lunar Lander. Utilizing both tabular and deep reinforcement learning methods, our experiments consistently affirm the efficacy of our proposed framework, highlighting its effectiveness in ensuring policy adherence to the prescribed control requirements.
arxiv情報
| 著者 | Francesco De Lellis,Marco Coraggio,Giovanni Russo,Mirco Musolesi,Mario di Bernardo | 
| 発行日 | 2024-03-20 15:30:31+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
