要約
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、まず専門家の実演から報酬関数を学習することが多い。しかし、IRLは識別可能性の問題に悩まされることがあり、学習した報酬関数で学習する場合の性能・効率は保証されていない。本論文では、政策訓練用の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。PAGARは、主人公政策と敵対政策との間の性能差を最大化する報酬関数を逆境的に繰り返し探索することを採用する。これにより、識別可能性の問題にもかかわらず、主人公のポリシーは、可能な報酬関数のセットで良好なパフォーマンスを発揮することができる。IRLベースのILと統合した場合、PAGARは訓練されたポリシーが基本タスクで成功することを保証する。さらに、PAGARを用いたILの実用的なオン・オフ政策アプローチを紹介する。このアプローチは、ポリシーと報酬関数の最適化のために、主人公と敵対するポリシーの両方からのサンプルを最大限に利用する。実験結果は、我々のアルゴリズムが、標準的な設定における最先端のIL/IRLベースラインと比較して高い学習効率を達成し、また、転送環境におけるデモからのゼロショット学習も達成することを示す。
要約(オリジナル)
Imitation learning (IL) algorithms often rely on inverse reinforcement learning (IRL) to first learn a reward function from expert demonstrations. However, IRL can suffer from identifiability issues and there is no performance or efficiency guarantee when training with the learned reward function. In this paper, we propose Protagonist Antagonist Guided Adversarial Reward (PAGAR), a semi-supervised learning paradigm for designing rewards for policy training. PAGAR employs an iterative adversarially search for reward functions to maximize the performance gap between a protagonist policy and an antagonist policy. This allows the protagonist policy to perform well across a set of possible reward functions despite the identifiability issue. When integrated with IRL-based IL, PAGAR guarantees that the trained policy succeeds in the underlying task. Furthermore, we introduce a practical on-and-off policy approach to IL with PAGAR. This approach maximally utilizes samples from both the protagonist and antagonist policies for the optimization of policy and reward functions. Experimental results demonstrate that our algorithm achieves higher training efficiency compared to state-of-the-art IL/IRL baselines in standard settings, as well as zero-shot learning from demonstrations in transfer environments.
arxiv情報
著者 | Weichao Zhou,Wenchao Li |
発行日 | 2023-06-02 17:57:53+00:00 |
arxivサイト | arxiv_id(pdf) |