要約
多くの模倣学習 (IL) アルゴリズムは、逆強化学習 (IRL) を採用して、専門家が実証された動作に基づいて暗黙的に最適化している基礎となる報酬関数を推測します。
ただし、推定された報酬と実際のタスクの目標の間に不整合があると、タスクが失敗する可能性があります。
この論文では、IRL ベースの IL におけるこの報酬の不整合の問題に取り組むための半教師あり報酬設計パラダイムである、Protagonist Antagonist Guided Adversarial Reward (PAGAR) を紹介します。
PAGAR が基礎となるタスクで成功するポリシーを誘導することを保証できる候補報酬関数の条件を特定します。
さらに、IRL ベースの IL に PAGAR を実装するための実践的なオン/オフ ポリシー アプローチを紹介します。
実験結果は、デモが限られている転送環境における複雑な IL タスクおよびゼロショット IL タスクにおいて、当社のアルゴリズムが競合ベースラインを上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Many imitation learning (IL) algorithms employ inverse reinforcement learning (IRL) to infer the underlying reward function that an expert is implicitly optimizing for, based on their demonstrated behaviors. However, a misalignment between the inferred reward and the true task objective can result in task failures. In this paper, we introduce Protagonist Antagonist Guided Adversarial Reward (PAGAR), a semi-supervised reward design paradigm to tackle this reward misalignment problem in IRL-based IL. We identify the conditions on the candidate reward functions under which PAGAR can guarantee to induce a policy that succeeds in the underlying task. Furthermore, we present a practical on-and-off policy approach to implement PAGAR in IRL-based IL. Experimental results show that our algorithm outperforms competitive baselines on complex IL tasks and zero-shot IL tasks in transfer environments with limited demonstrations.
arxiv情報
著者 | Weichao Zhou,Wenchao Li |
発行日 | 2023-10-02 05:47:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google