FP3: A 3D Foundation Policy for Robotic Manipulation

要約

自然言語処理とコンピュータービジョンでの成功に続いて、大規模なマルチタスクデータセットで事前に訓練された基礎モデルも、ロボット工学の大きな可能性を示しています。
ただし、ほとんどの既存のロボットファンデーションモデルは、ロボットが3Dの世界について知覚し、推論するために不可欠な3D幾何情報情報を無視して、2D画像観測のみに依存しています。
この論文では、ロボット操作のための最初の大規模な3DファンデーションポリシーモデルであるFP3を紹介します。
FP3は、スケーラブルな拡散トランスアーキテクチャに基づいて構築されており、ポイントクラウドの観測を伴う60Kの軌跡で事前に訓練されています。
モデル設計と多様なトレーニング前のデータにより、FP3は、強力な一般化機能を示しながら、下流のタスクに効率的に微調整できます。
実際のロボットでの実験は、80のデモンストレーションのみで、FP3は目に見えないオブジェクトを持つ新しい環境で90%以上の成功率を持つ新しいタスクを学ぶことができ、既存のロボット基礎モデルを大幅に上回ることを示しています。

要約(オリジナル)

Following its success in natural language processing and computer vision, foundation models that are pre-trained on large-scale multi-task datasets have also shown great potential in robotics. However, most existing robot foundation models rely solely on 2D image observations, ignoring 3D geometric information, which is essential for robots to perceive and reason about the 3D world. In this paper, we introduce FP3, a first large-scale 3D foundation policy model for robotic manipulation. FP3 builds on a scalable diffusion transformer architecture and is pre-trained on 60k trajectories with point cloud observations. With the model design and diverse pre-training data, FP3 can be efficiently fine-tuned for downstream tasks while exhibiting strong generalization capabilities. Experiments on real robots demonstrate that with only 80 demonstrations, FP3 is able to learn a new task with over 90% success rates in novel environments with unseen objects, significantly surpassing existing robot foundation models.

arxiv情報

著者 Rujia Yang,Geng Chen,Chuan Wen,Yang Gao
発行日 2025-03-11 23:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク