要約
PopGym Arcadeを紹介します。PopGymArcadeは、観察スペースとアクションスペースを共有したハードウェアアクセラレーションのピクセルベースの環境のコレクションです。
各環境には、完全かつ部分的に観察可能なバリアントが含まれており、部分的な観測可能性に関する反事実的研究を可能にします。
また、部分的な観察可能性の下でポリシーを分析するための数学ツールを紹介します。これは、エージェントが過去の情報を思い出して決定を下す方法を明らかにします。
私たちの分析は、(1)部分的な観測可能性を制御することが重要であり、(2)長期的な記憶を持つエージェントが一般化に苦労する脆い政策を学ぶことを示しています。
最後に、SIMから現実的な転送、模倣学習、およびオフラインの強化学習に影響を与え、再発政策を古くからの分布していない観察によって「毒」できることを実証します。
要約(オリジナル)
We present the POPGym Arcade, a collection of hardware-accelerated, pixel-based environments with shared observation and action spaces. Each environment includes fully and partially observable variants, enabling counterfactual studies on partial observability. We also introduce mathematical tools for analyzing policies under partial observability, which reveal how agents recall past information to make decisions. Our analysis shows (1) that controlling for partial observability is critical and (2) that agents with long-term memory learn brittle policies that struggle to generalize. Finally, we demonstrate that recurrent policies can be ‘poisoned’ by old, out-of-distribution observations, with implications for sim-to-real transfer, imitation learning, and offline reinforcement learning.
arxiv情報
著者 | Zekang Wang,Zhe He,Borong Zhang,Edan Toledo,Steven Morad |
発行日 | 2025-06-02 09:04:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google