Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

要約

我々は、ロボットスキル習得のためのフレームワークを提案する。これは、1) 言語ラベル付きロボットデータのデータ生成を効率的にスケールアップし、2) このデータを効果的に抽出して、堅牢なマルチタスクの言語条件付き視覚運動ポリシーを生成する。
(1) については、大規模言語モデル (LLM) を使用して、高レベルの計画をガイドし、サンプリングベースのロボット プランナー (モーション サンプラーや把握サンプラーなど) を使用して、多様で豊富な操作軌跡を生成します。
このデータ収集プロセスを強化するために、LLM は各タスクの成功条件のコード スニペットも推論し、同時にデータ収集プロセスで失敗と再試行を検出し、成功/失敗による軌跡の自動ラベル付けを可能にします。
(2) については、拡散ポリシーのシングルタスクの動作複製アプローチを、言語条件付けを使用したマルチタスク設定に拡張します。
最後に、長期的な動作、常識的な推論、ツールの使用、直感的な物理学をテストするために、5 つのドメインにわたる 18 のタスクを含む新しいマルチタスク ベンチマークを提案します。
抽出されたポリシーは、データ収集手順における堅牢な再試行動作を首尾よく学習し、5 つのドメイン全体で絶対成功率を平均 33.2% 向上させたことがわかりました。
コード、データ、および追加の定性的結果は、https://www.cs.columbia.edu/~huy/scalingup/ で入手できます。

要約(オリジナル)

We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection procedure, while improving absolute success rates by 33.2% on average across five domains. Code, data, and additional qualitative results are available on https://www.cs.columbia.edu/~huy/scalingup/.

arxiv情報

著者 Huy Ha,Pete Florence,Shuran Song
発行日 2023-10-01 00:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 パーマリンク