Multi-task Hierarchical Adversarial Inverse Reinforcement Learning

要約

マルチタスク模倣学習(MIL)は、汎用ロボットに不可欠な、マルチタスクの専門家のデモンストレーションに基づいてタスクの分散を実行できるポリシーを訓練することを目的としています。
既存の MIL アルゴリズムは、データ効率が低く、長期にわたる複雑なタスクのパフォーマンスが低いという問題があります。
私たちは、階層構造のマルチタスク ポリシーを学習するためのマルチタスク階層的敵対的逆強化学習 (MH-AIRL) を開発します。これは、長期にわたる構成タスクにとってより有益であり、タスク間で再利用可能な基本スキルを特定して伝達することにより、専門家のデータ効率が高くなります。

これを実現するために、MH-AIRL はコンテキストベースのマルチタスク学習、AIRL (IL アプローチ)、および階層型ポリシー学習を効果的に統合します。
さらに、MH-AIRL は、タスクまたはスキルのアノテーションなし (つまり、状態とアクションのペアのみ) のデモンストレーションに採用でき、実際にはよりアクセスしやすくなります。
MH-AIRL の各モジュールには理論的根拠が提供されており、困難なマルチタスク設定の評価により、SOTA MIL ベースラインと比較して、MH-AIRL で学習したマルチタスク ポリシーの優れたパフォーマンスと移行可能性が実証されています。

要約(オリジナル)

Multi-task Imitation Learning (MIL) aims to train a policy capable of performing a distribution of tasks based on multi-task expert demonstrations, which is essential for general-purpose robots. Existing MIL algorithms suffer from low data efficiency and poor performance on complex long-horizontal tasks. We develop Multi-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) to learn hierarchically-structured multi-task policies, which is more beneficial for compositional tasks with long horizons and has higher expert data efficiency through identifying and transferring reusable basic skills across tasks. To realize this, MH-AIRL effectively synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning. Further, MH-AIRL can be adopted to demonstrations without the task or skill annotations (i.e., state-action pairs only) which are more accessible in practice. Theoretical justifications are provided for each module of MH-AIRL, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL as compared to SOTA MIL baselines.

arxiv情報

著者 Jiayu Chen,Dipesh Tamboli,Tian Lan,Vaneet Aggarwal
発行日 2023-06-28 14:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク