GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation

要約

オフライン模倣学習 (IL) とは、環境との追加の対話を行わずに、デモンストレーションのみから専門家の行動を学習することを指します。
オフライン IL は大幅に進歩しているにもかかわらず、既存の技術では長期的なタスクのポリシーを学習することが難しく、タスクの仕様が変更された場合には大幅な再トレーニングが必要になります。
これらの制限に対処するために、私たちは、目標条件付きの長期にわたる逐次タスクのためのオフライン IL 技術である GO-DICE を紹介します。
GO-DICE は、デモンストレーションからサブタスクの階層を識別し、これらを使用して、それぞれサブタスクの遷移とアクションの実行に関する個別のポリシーを学習します。
この階層的なポリシー学習により、長期的な推論が容易になります。
拡張的な DICE ファミリの技術に触発され、両方のレベルでのポリシー学習が定常分布の空間内で起こります。
さらに、どちらのポリシーも目標条件付けを使用して学習されるため、タスクの目標が変更された場合の再トレーニングの必要性が最小限に抑えられます。
実験結果は、GO-DICE が最近のベースラインを上回るパフォーマンスを示していることを実証しています。これは、ますます困難になっているピック アンド プレース Mujoco ロボット タスクの完了率が顕著に向上していることからもわかります。
GO-DICE は、不完全なデモンストレーションや部分的なタスクのセグメンテーション (利用可能な場合) を活用することもでき、どちらも専門家のデモンストレーションのみから学習する場合と比較してタスクのパフォーマンスを向上させます。

要約(オリジナル)

Offline imitation learning (IL) refers to learning expert behavior solely from demonstrations, without any additional interaction with the environment. Despite significant advances in offline IL, existing techniques find it challenging to learn policies for long-horizon tasks and require significant re-training when task specifications change. Towards addressing these limitations, we present GO-DICE an offline IL technique for goal-conditioned long-horizon sequential tasks. GO-DICE discerns a hierarchy of sub-tasks from demonstrations and uses these to learn separate policies for sub-task transitions and action execution, respectively; this hierarchical policy learning facilitates long-horizon reasoning. Inspired by the expansive DICE-family of techniques, policy learning at both the levels transpires within the space of stationary distributions. Further, both policies are learnt with goal conditioning to minimize need for retraining when task goals change. Experimental results substantiate that GO-DICE outperforms recent baselines, as evidenced by a marked improvement in the completion rate of increasingly challenging pick-and-place Mujoco robotic tasks. GO-DICE is also capable of leveraging imperfect demonstration and partial task segmentation when available, both of which boost task performance relative to learning from expert demonstrations alone.

arxiv情報

著者 Abhinav Jain,Vaibhav Unhelkar
発行日 2023-12-17 19:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク