Model-assisted Reinforcement Learning of a Quadrotor

要約

最近、高度に非線形なシステムで制御タスクを実行する場合、強化学習は不可解な結果を生み出しました。
現実世界に展開されたエージェントに関連する潜在的な脆弱性や不確実性よりも、常に優れた結果が上回ります。
古典的な制御アルゴリズムと比較してパフォーマンスは顕著ですが、強化学習ベースの手法には、現代の実世界のアプリケーションにとって不可欠な堅牢性と解釈可能性という 2 つの欠陥があります。
この論文では、強化学習に関するこのような問題を軽減することを試み、エージェントに保守性の概念を誘導するモデル支援強化学習の概念を提案しています。
この実験で考慮された制御タスクには、CrazyFlie クアローターの操縦が含まれます。
この論文では、多目的強化学習を通じて保守性のレベルを柔軟に調整できるようにタスクを再定式化する方法についても説明しています。
結果には、バニラ強化学習アプローチと提案されたアプローチの比較が含まれます。
メトリクスは、エージェントの固有の堅牢性と保守性を分類するために体系的に外乱を注入することによって評価されます。
より具体的な議論は、Hamilton-Jacobi-Bellman 偏微分方程式 (HJ PDE) を解くことによって RL ポリシーの後方到達可能性チューブを計算および比較することによって行われます。

要約(オリジナル)

In recent times, reinforcement learning has produced baffling results when it comes to performing control tasks with highly non-linear systems. The impressive results always outweigh the potential vulnerabilities or uncertainties associated with the agents when deployed in the real-world. While the performance is remarkable compared to the classical control algorithms, the reinforcement learning-based methods suffer from two flaws, robustness and interpretability, which are vital for contemporary real-world applications. The paper attempts to alleviate such problems with reinforcement learning and proposes the concept of model-assisted reinforcement learning to induce a notion of conservativeness in the agents. The control task considered for the experiment involves navigating a CrazyFlie quadrotor. The paper also describes a way of reformulating the task to have the flexibility of tuning the level of conservativeness via multi-objective reinforcement learning. The results include a comparison of the vanilla reinforcement learning approaches and the proposed approach. The metrics are evaluated by systematically injecting disturbances to classify the inherent robustness and conservativeness of the agents. More concrete arguments are made by computing and comparing the backward reachability tubes of the RL policies by solving the Hamilton-Jacobi-Bellman partial differential equation (HJ PDE).

arxiv情報

著者 Arshad Javeed
発行日 2023-11-12 18:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク