PAGAR: Taming Reward Misalignment in Inverse Reinforcement Learning-Based Imitation Learning with Protagonist Antagonist Guided Adversarial Reward

要約

多くの模倣学習 (IL) アルゴリズムは、逆強化学習 (IRL) を採用して、専門家が実証された行動に基づいて暗黙的に最適化している固有の報酬関数を推測します。
ただし、実際には、IRL ベースの IL は、推定された報酬とタスクの目的の間の不整合により、基礎となるタスクを達成できない可能性があります。
この論文では、主人公アンタゴニスト誘導敵対的報酬 (PAGAR) と呼ばれる半教師あり報酬設計パラダイムを導入することにより、IL のそのような不整合に対する脆弱性に対処します。
PAGAR ベースの IL は、IRL ベースの IL のような単一の報酬関数ではなく、混合報酬関数の下でも適切にパフォーマンスを発揮するようにポリシーをトレーニングします。
PAGAR ベースの IL が報酬の不整合によって引き起こされるタスクの失敗を回避できる理論的条件を特定します。
また、PAGAR ベースの IL を実装するための実践的なオン/オフ ポリシー アプローチも紹介します。
実験結果は、複雑なタスクや困難な転送設定において、当社のアルゴリズムが標準の IL ベースラインよりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Many imitation learning (IL) algorithms employ inverse reinforcement learning (IRL) to infer the intrinsic reward function that an expert is implicitly optimizing for based on their demonstrated behaviors. However, in practice, IRL-based IL can fail to accomplish the underlying task due to a misalignment between the inferred reward and the objective of the task. In this paper, we address the susceptibility of IL to such misalignment by introducing a semi-supervised reward design paradigm called Protagonist Antagonist Guided Adversarial Reward (PAGAR). PAGAR-based IL trains a policy to perform well under mixed reward functions instead of a single reward function as in IRL-based IL. We identify the theoretical conditions under which PAGAR-based IL can avoid the task failures caused by reward misalignment. We also present a practical on-and-off policy approach to implementing PAGAR-based IL. Experimental results show that our algorithm outperforms standard IL baselines in complex tasks and challenging transfer settings.

arxiv情報

著者 Weichao Zhou,Wenchao Li
発行日 2024-02-07 18:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク