Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery

要約

敵対的逆強化学習 (AIRL) は、模倣学習の基礎となるアプローチです。
この論文は、AIRL の 2 つの異なる角度、つまり政策の模倣と譲渡可能な報酬の回収を再考します。
まず、ポリシー最適化プロセス中に AIRL の組み込みアルゴリズムをソフト アクター クリティカル (SAC) に置き換えて、サンプル効率を向上させます。これは、SAC のオフポリシー定式化と、
エアル。
確かに、政策の模倣においては大幅な改善が見られますが、誤って譲渡可能な報酬の回収に欠点をもたらします。
この問題を学ぶために、SAC アルゴリズム自体では AIRL トレーニング プロセス中に報酬関数を包括的に解きほぐすことが不可能であることを示し、満足のいく伝達効果を得るためにハイブリッド フレームワークである PPO-AIRL + SAC を提案します。
さらに、代数理論の観点から、解きほぐされた報酬を抽出する環境の能力を分析します。

要約(オリジナル)

Adversarial inverse reinforcement learning (AIRL) stands as a cornerstone approach in imitation learning. This paper rethinks the two different angles of AIRL: policy imitation and transferable reward recovery. We begin with substituting the built-in algorithm in AIRL with soft actor-critic (SAC) during the policy optimization process to enhance sample efficiency, thanks to the off-policy formulation of SAC and identifiable Markov decision process (MDP) models with respect to AIRL. It indeed exhibits a significant improvement in policy imitation but accidentally brings drawbacks to transferable reward recovery. To learn this issue, we illustrate that the SAC algorithm itself is not feasible to disentangle the reward function comprehensively during the AIRL training process, and propose a hybrid framework, PPO-AIRL + SAC, for satisfactory transfer effect. Additionally, we analyze the capability of environments to extract disentangled rewards from an algebraic theory perspective.

arxiv情報

著者 Yangchun Zhang,Yirui Zhou
発行日 2024-03-21 17:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク