RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability

要約

視覚モデルに基づくRL手法は、通常、冗長な情報を排除しない方法で、画像観察を低次元表現に符号化する。このため、背景の散乱物や照明条件のようなタスクに無関係な要素の変化といった、スプリアスの変動の影響を受けやすい。本論文では、このようなスプリアスの変化に強い潜在表現を学習する、視覚モデルに基づくRL手法を提案する。我々の学習目的は、観察から潜在表現への情報フローを制約しつつ、潜在表現がダイナミクスと報酬を最大限に予測できるようにすることである。この目的により、視覚モデルベースのRL手法が、視覚的な妨害に対する耐性を大幅に強化し、動的な環境でも動作できるようになることを示す。次に、学習されたエンコーダは、急激な変化には強いが、大きな分布の変化に対しては不変ではないことを示す。この問題に対処するため、エンコーダのテスト時間適応を可能にする、報酬のない簡単なアライメント手順を提案する。これにより、ダイナミクスとポリシーを再学習することなく、大きく異なる環境に素早く適応することができる。我々の取り組みは、モデルベースRLをダイナミックで多様な領域における実用的で有用なツールとするための一歩である。我々は、大きなスプリアス・バリエーションがあるシミュレーション・ベンチマークと、背景にノイズのあるテレビがある実世界の自心ナビゲーション・タスクで、その有効性を示す。動画とコードはhttps://zchuning.github.io/repo-website/。

要約(オリジナル)

Visual model-based RL methods typically encode image observations into low-dimensional representations in a manner that does not eliminate redundant information. This leaves them susceptible to spurious variations — changes in task-irrelevant components such as background distractors or lighting conditions. In this paper, we propose a visual model-based RL method that learns a latent representation resilient to such spurious variations. Our training objective encourages the representation to be maximally predictive of dynamics and reward, while constraining the information flow from the observation to the latent representation. We demonstrate that this objective significantly bolsters the resilience of visual model-based RL methods to visual distractors, allowing them to operate in dynamic environments. We then show that while the learned encoder is resilient to spirious variations, it is not invariant under significant distribution shift. To address this, we propose a simple reward-free alignment procedure that enables test time adaptation of the encoder. This allows for quick adaptation to widely differing environments without having to relearn the dynamics and policy. Our effort is a step towards making model-based RL a practical and useful tool for dynamic, diverse domains. We show its effectiveness in simulation benchmarks with significant spurious variations as well as a real-world egocentric navigation task with noisy TVs in the background. Videos and code at https://zchuning.github.io/repo-website/.

arxiv情報

著者 Chuning Zhu,Max Simchowitz,Siri Gadipudi,Abhishek Gupta
発行日 2023-08-31 18:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク