要約
1 人の専門家による逆強化学習 (IRL) のコンテキストでは、敵対的逆強化学習 (AIRL) は、包括的で移転可能なタスクの説明を提供するための基本的なアプローチとして機能します。
しかし、AIRL は、主にフレームワークの過度に理想化された分解条件、報酬回収における潜在的平衡に関する不明確な証明、または高次元環境での疑わしい堅牢性に起因する実際的なパフォーマンスの課題に直面しています。
この論文では、 \textbf{状態空間が無限大になる傾向にある高次元シナリオ} で AIRL を再検討します。
具体的には、まず、遷移行列から恒等行列を引いた行列のランクを調べることで、報酬移転可能性の必要十分条件を確立します。
さらに、ランダム行列理論を活用して、この行列のスペクトル分布を分析し、遷移行列が観測できない場合でもランク基準が高い確率で保持されることを実証しました。
これは、転送の制限が AIRL フレームワーク自体に固有のものではなく、その中で使用される強化学習アルゴリズムのトレーニングの分散に関連していることを示唆しています。
この洞察に基づいて、ソース環境でのポリシー上の近接ポリシーの最適化と、ターゲット環境でのポリシー外のソフトアクター批判を統合するハイブリッドフレームワークを提案します。これにより、報酬移転の有効性が大幅に向上します。
要約(オリジナル)
In the context of inverse reinforcement learning (IRL) with a single expert, adversarial inverse reinforcement learning (AIRL) serves as a foundational approach to providing comprehensive and transferable task descriptions. However, AIRL faces practical performance challenges, primarily stemming from the framework’s overly idealized decomposability condition, the unclear proof regarding the potential equilibrium in reward recovery, or questionable robustness in high-dimensional environments. This paper revisits AIRL in \textbf{high-dimensional scenarios where the state space tends to infinity}. Specifically, we first establish a necessary and sufficient condition for reward transferability by examining the rank of the matrix derived from subtracting the identity matrix from the transition matrix. Furthermore, leveraging random matrix theory, we analyze the spectral distribution of this matrix, demonstrating that our rank criterion holds with high probability even when the transition matrices are unobservable. This suggests that the limitations on transfer are not inherent to the AIRL framework itself, but are instead related to the training variance of the reinforcement learning algorithms employed within it. Based on this insight, we propose a hybrid framework that integrates on-policy proximal policy optimization in the source environment with off-policy soft actor-critic in the target environment, leading to significant improvements in reward transfer effectiveness.
arxiv情報
著者 | Yangchun Zhang,Wang Zhou,Yirui Zhou |
発行日 | 2024-12-30 14:18:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google