要約
模倣学習(IL)は、デモンストレーションから専門家の政策を回復するために提案されています。
ただし、通常、エキスパート ポリシーにサブタスク階層が含まれる、非常に複雑で長期にわたるタスクに対して単一のモノリシック ポリシーを学習することは困難です。
したがって、階層模倣学習 (HIL) は、オプション フレームワークを使用してタスク内のアクティビティ構造を明示的にモデル化することで、専門家のデモンストレーションから階層ポリシーを学習するために開発されました。
既存の HIL 手法は、サブタスク構造と学習されたポリシーの間の因果関係を見落とすか、階層フレームワーク内の高レベルと低レベルのポリシーを組み合わせて学習できないため、次善の事態が発生します。
この研究では、最新の (SOTA) IL アルゴリズムである AIRL をワンステップ オプション フレームワークで拡張した、新しい HIL アルゴリズムである階層型敵対逆強化学習 (H-AIRL) を提案します。
具体的には、拡張された状態空間とアクション空間に関する AIRL 目標を再定義し、さらに目的関数に有向情報項を導入して、低レベルのポリシーとそれに対応するサブタスクの間の因果関係を強化します。
さらに、これらの目的で 2 レベルのポリシーを共同トレーニングするための変分オートエンコーダー (VAE) フレームワークを提案します。
SOTA HIL ベースラインと比較したアルゴリズムの優位性を示すために、アルゴリズム設計の理論的正当性と困難なロボット制御タスクの評価が提供されます。
コードは https://github.com/LucasCJYSDL/HierAIRL で入手できます。
要約(オリジナル)
Imitation Learning (IL) has been proposed to recover the expert policy from demonstrations. However, it would be difficult to learn a single monolithic policy for highly-complex long-horizon tasks of which the expert policy usually contains subtask hierarchies. Therefore, Hierarchical Imitation Learning (HIL) has been developed to learn a hierarchical policy from expert demonstrations through explicitly modelling the activity structure in a task with the option framework. Existing HIL methods either overlook the causal relationship between the subtask structure and the learned policy, or fail to learn the high-level and low-level policy in the hierarchical framework in conjuncture, which leads to suboptimality. In this work, we propose a novel HIL algorithm — Hierarchical Adversarial Inverse Reinforcement Learning (H-AIRL), which extends a state-of-the-art (SOTA) IL algorithm — AIRL, with the one-step option framework. Specifically, we redefine the AIRL objectives on the extended state and action spaces, and further introduce a directed information term to the objective function to enhance the causality between the low-level policy and its corresponding subtask. Moreover, we propose a Variational Autoencoder (VAE) framework for jointly training the two-level policy with these objectives. Theoretical justifications of our algorithm design and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm compared with SOTA HIL baselines. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
arxiv情報
著者 | Jiayu Chen,Tian Lan,Vaneet Aggarwal |
発行日 | 2023-05-22 01:14:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google