Trajectory Entropy Reinforcement Learning for Predictable and Robust Control

要約

シンプルさは、特に堅牢性が重要な場合、データ駆動型コントローラーを設計するための重要な帰納的バイアスです。
複雑な制御タスクにおける深い補強学習の印象的な結果にもかかわらず、観察と行動の間に複雑で偽りの相関関係を捉える傾向があり、環境へのわずかな摂動の下での失敗につながります。
この問題に取り組むために、この作業では、補強学習における単純な政策に対する新しい誘導バイアスを紹介します。
シンプルさの誘導バイアスは、エージェントが状態軌跡を観察した後にアクション内の情報を説明するために必要なビットの数に対応する、アクション軌跡全体のエントロピーを最小化することにより導入されます。
補強学習エージェントである軌跡エントロピー補強学習は、報酬を最大化しながら軌道エントロピーを最小限に抑えるために最適化されています。
軌道エントロピーは、変分パラメーター化されたアクション予測モデルを学習することで効果的に推定できることを示し、予測モデルを使用して情報正規化された報酬関数を構築します。
さらに、ポリシーや予測モデルを含むモデルの共同最適化を可能にする実用的なアルゴリズムを構築します。
いくつかの高次元の移動タスクに関する実験的評価は、私たちの学習したポリシーがより循環的で一貫したアクションの軌跡を生み出し、優れたパフォーマンスを達成し、最先端よりもノイズと動的な変化に対する堅牢性を達成することを示しています。

要約(オリジナル)

Simplicity is a critical inductive bias for designing data-driven controllers, especially when robustness is important. Despite the impressive results of deep reinforcement learning in complex control tasks, it is prone to capturing intricate and spurious correlations between observations and actions, leading to failure under slight perturbations to the environment. To tackle this problem, in this work we introduce a novel inductive bias towards simple policies in reinforcement learning. The simplicity inductive bias is introduced by minimizing the entropy of entire action trajectories, corresponding to the number of bits required to describe information in action trajectories after the agent observes state trajectories. Our reinforcement learning agent, Trajectory Entropy Reinforcement Learning, is optimized to minimize the trajectory entropy while maximizing rewards. We show that the trajectory entropy can be effectively estimated by learning a variational parameterized action prediction model, and use the prediction model to construct an information-regularized reward function. Furthermore, we construct a practical algorithm that enables the joint optimization of models, including the policy and the prediction model. Experimental evaluations on several high-dimensional locomotion tasks show that our learned policies produce more cyclical and consistent action trajectories, and achieve superior performance, and robustness to noise and dynamic changes than the state-of-the-art.

arxiv情報

著者 Bang You,Chenxu Wang,Huaping Liu
発行日 2025-05-07 07:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク