要約
環境の変化に対して堅牢な学習ポリシーは、強化学習エージェントを現実世界に展開するために重要です。
これらは、環境の変化全体で適切な一般化を達成するためにも必要です。
私たちは、観測のタスク関連コンポーネントを抽象化し、強化学習を使用してエージェントをトレーニングするための簡潔な表現空間を学習するための強力な手段を提供するバイシミュレーション メトリクスに焦点を当てます。
この研究では、コンテキスト依存の観察シフトも考慮に入れるためにバイシミュレーション フレームワークを拡張します。
具体的には、シミュレーターベースの学習設定に焦点を当て、代替観測を使用して、新しいバイシミュレーションベースの目的を使用して観測シフトに対して不変である表現空間を学習します。
これにより、テスト中にさまざまな観察設定にエージェントを展開し、目に見えないシナリオに一般化することができます。
さらに、シミュレータの忠実度に対する新しい理論的限界と、学習されたポリシーを目に見えないシフトに使用するためのパフォーマンス伝達の保証を提供します。
高次元画像ベースの制御ドメインに関する実証分析により、私たちの方法の有効性が実証されています。
要約(オリジナル)
Learning policies which are robust to changes in the environment are critical for real world deployment of Reinforcement Learning agents. They are also necessary for achieving good generalization across environment shifts. We focus on bisimulation metrics, which provide a powerful means for abstracting task relevant components of the observation and learning a succinct representation space for training the agent using reinforcement learning. In this work, we extend the bisimulation framework to also account for context dependent observation shifts. Specifically, we focus on the simulator based learning setting and use alternate observations to learn a representation space which is invariant to observation shifts using a novel bisimulation based objective. This allows us to deploy the agent to varying observation settings during test time and generalize to unseen scenarios. We further provide novel theoretical bounds for simulator fidelity and performance transfer guarantees for using a learnt policy to unseen shifts. Empirical analysis on the high-dimensional image based control domains demonstrates the efficacy of our method.
arxiv情報
著者 | Anuj Mahajan,Amy Zhang |
発行日 | 2023-06-07 16:49:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google