要約
部分的に観察可能な環境での強化学習(RL)は、不確実性の下での学習の複雑さのために大きな課題をもたらします。
シミュレーションで利用できるような追加情報は、トレーニングを強化することができ、それを効果的に活用することができます。
これに対処するために、ガイダーと学習者を共同訓練するフレームワークであるGuided Policy Optimization(GPO)を紹介します。
ガイドは、主に模倣学習を通じて訓練されている学習者のポリシーとの整合を確保しながら、特権情報を利用しています。
この学習スキームは、直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服することを理論的に実証しています。
経験的評価は、部分的な観察性とノイズを伴う継続的な制御、メモリベースの課題を含む、既存の方法を大幅に上回るなど、さまざまなタスクにわたるGPOの強力なパフォーマンスを示しています。
要約(オリジナル)
Reinforcement Learning (RL) in partially observable environments poses significant challenges due to the complexity of learning under uncertainty. While additional information, such as that available in simulations, can enhance training, effectively leveraging it remains an open problem. To address this, we introduce Guided Policy Optimization (GPO), a framework that co-trains a guider and a learner. The guider takes advantage of privileged information while ensuring alignment with the learner’s policy that is primarily trained via imitation learning. We theoretically demonstrate that this learning scheme achieves optimality comparable to direct RL, thereby overcoming key limitations inherent in existing approaches. Empirical evaluations show strong performance of GPO across various tasks, including continuous control with partial observability and noise, and memory-based challenges, significantly outperforming existing methods.
arxiv情報
著者 | Yueheng Li,Guangming Xie,Zongqing Lu |
発行日 | 2025-05-21 12:01:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google