要約
私たちは、スケーラブルなフレームワークを使用して現実世界の操作スキルを獲得するという課題に取り組みます。大規模言語モデル (LLM) における大規模な自己回帰予測の成功に触発されて、私たちは、大規模言語モデル (LLM) を活用できる適切な予測ターゲットを特定することが重要であると考えています。
スケールのデータセットは、効率的かつ普遍的な学習を達成するために不可欠です。
そこで我々は、ロボット学習における理想的な予測対象として、対象物体上の3次元点の将来の軌跡を表すフローを利用することを提案する。
スケーラブルなデータ リソースを活用するために、クロス実施形態のデータセットに注目します。
私たちは初めて、大規模な RGBD ヒューマン ビデオ データセットから直接、言語条件付き予測モデルを開発しました。
私たちの予測された流れは、実用的な幾何学的および物理的なガイダンスを提供するため、現実世界のシナリオでの安定したゼロショットスキルの伝達を促進します。私たちは、閉ループの流れ予測に基づいたポリシーを使用してメソッドを展開します。
驚くべきことに、追加のトレーニングを必要とせずに、私たちの方法は、6 つのシーンで 18 のタスクをカバーし、人間からロボットへのスキル伝達において 81% という驚異的な成功率を達成しました。
私たちのフレームワークには次の利点があります。(1) スケーラビリティ: クロス実施形態のデータ リソースを活用します。
(2) 普遍性: 剛体、多関節体、軟体を含む複数のオブジェクト カテゴリ。
(3) 安定したスキルの伝達: 推論領域のギャップが小さい実用的なガイダンスを提供します。
これらは、スケーラブルな一般的なロボット学習への新しい道につながります。
データ、コード、モデルの重みは公開されます。
要約(オリジナル)
We address the challenge of acquiring real-world manipulation skills with a scalable framework.Inspired by the success of large-scale auto-regressive prediction in Large Language Models (LLMs), we hold the belief that identifying an appropriate prediction target capable of leveraging large-scale datasets is crucial for achieving efficient and universal learning. Therefore, we propose to utilize flow, which represents the future trajectories of 3D points on objects of interest, as an ideal prediction target in robot learning. To exploit scalable data resources, we turn our attention to cross-embodiment datasets. We develop, for the first time, a language-conditioned prediction model directly from large-scale RGBD human video datasets. Our predicted flow offers actionable geometric and physics guidance, thus facilitating stable zero-shot skill transfer in real-world scenarios.We deploy our method with a policy based on closed-loop flow prediction. Remarkably, without any additional training, our method achieves an impressive 81% success rate in human-to-robot skill transfer, covering 18 tasks in 6 scenes. Our framework features the following benefits: (1) scalability: leveraging cross-embodiment data resources; (2) universality: multiple object categories, including rigid, articulated, and soft bodies; (3) stable skill transfer: providing actionable guidance with a small inference domain-gap. These lead to a new pathway towards scalable general robot learning. Data, code, and model weights will be made publicly available.
arxiv情報
著者 | Chengbo Yuan,Chuan Wen,Tong Zhang,Yang Gao |
発行日 | 2024-01-21 09:39:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google