要約
階層模倣学習 (HIL) は、オプション フレームワークを使用してタスク階層をモデル化することで、長期的なタスクにおける高度に複雑な動作を専門家のデモンストレーションから復元するために提案されています。
既存の方法では、サブタスクとそれに対応するポリシーの間の因果関係が見落とされているか、エンドツーエンドの方法でポリシーを学習できないため、準最適化が生じます。
この研究では、敵対的逆強化学習に基づいた新しい HIL アルゴリズムを開発し、それを期待値最大化アルゴリズムに適応させて、注釈のないデモンストレーションから階層型ポリシーを直接復元します。
さらに、因果関係を強化するために目的関数に有向情報項を導入し、エンドツーエンド方式で目的に合わせて学習するための変分オートエンコーダー フレームワークを提案します。
私たちのアルゴリズムの優位性を示すために、困難なロボット制御タスクに関する理論的根拠と評価が提供されます。
コードは https://github.com/LucasCJYSDL/HierAIRL で入手できます。
要約(オリジナル)
Hierarchical Imitation Learning (HIL) has been proposed to recover highly-complex behaviors in long-horizon tasks from expert demonstrations by modeling the task hierarchy with the option framework. Existing methods either overlook the causal relationship between the subtask and its corresponding policy or cannot learn the policy in an end-to-end fashion, which leads to suboptimality. In this work, we develop a novel HIL algorithm based on Adversarial Inverse Reinforcement Learning and adapt it with the Expectation-Maximization algorithm in order to directly recover a hierarchical policy from the unannotated demonstrations. Further, we introduce a directed information term to the objective function to enhance the causality and propose a Variational Autoencoder framework for learning with our objectives in an end-to-end fashion. Theoretical justifications and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
arxiv情報
著者 | Jiayu Chen,Tian Lan,Vaneet Aggarwal |
発行日 | 2023-05-26 03:19:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google