要約
我々は、ロボットスキル習得のためのフレームワークを提案する。これは、1) 言語ラベル付きロボットデータのデータ生成を効率的にスケールアップし、2) このデータを効果的に抽出して、堅牢なマルチタスクの言語条件付き視覚運動ポリシーを生成する。
(1) については、大規模言語モデル (LLM) を使用して、高レベルの計画をガイドし、サンプリングベースのロボット プランナー (モーション サンプラーや把握サンプラーなど) を使用して、多様で豊富な操作軌跡を生成します。
このデータ収集プロセスを強化するために、LLM は各タスクの成功条件のコード スニペットも推論し、同時にデータ収集プロセスで失敗と再試行を検出し、成功/失敗による軌跡の自動ラベル付けを可能にします。
(2) については、拡散ポリシーのシングルタスクの動作複製アプローチを、言語条件付けを使用したマルチタスク設定に拡張します。
最後に、長期的な動作、常識的な推論、ツールの使用、直感的な物理学をテストするために、5 つのドメインにわたる 18 のタスクを含む新しいマルチタスク ベンチマークを提案します。
抽出されたポリシーは、データ収集ポリシーの堅牢な再試行動作を首尾よく学習し、絶対成功率を 5 つのドメイン全体で平均 34.8% 向上させたことがわかりました。
ベンチマーク、コード、および定性的な結果は、当社の Web サイト https://www.cs.columbia.edu/~huy/scalingup/ にあります。
要約(オリジナル)
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/
arxiv情報
著者 | Huy Ha,Pete Florence,Shuran Song |
発行日 | 2023-07-26 22:52:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google