要約
第一に、特に人間が関与するマルチタスクデータの収集に多大な労力を必要とする日常生活シナリオにおいて、下流のシーンアフォーダンス理解タスクに大規模モデルを効率的に適応させること、第二に、視覚的アフォーダンスモデルを基礎とすることで、ロボットの行動軌跡を効率的に学習することである。我々は、マルチタスクシナリオにおける操作アフォーダンスを予測するために、学習可能なテキストプロンプトをフローズンビジョンモデルに前置するパラメータ効率の良いプロンプトチューニング手法を採用することにより、第1の課題に取り組む。次に、教師付きフローマッチング法により、アフォーダンスに導かれたロボットの行動軌跡を学習することを提案する。フローマッチングは、ロボットの視覚運動方針を、ランダムなウェイポイントをロボットの行動軌道に流す条件付きプロセスとして表現する。最後に、本フレームワークをテストするために、日常生活動作(Activities of Daily Living)に関する10のタスクからなる実世界のデータセットを紹介する。我々の広範な評価により、提案する操作アフォーダンス学習のためのプロンプトチューニング手法は、パラメータ効率を満足しつつ、データスケールにおいて競争力のある性能を達成し、他のいくつかのファインチューニングプロトコルをも凌駕することが明らかになった。フローマッチングを用いたマルチタスクロボット行動軌道の学習は、いくつかのロボット操作ベンチマークにおいて、いくつかの代替行動クローニング手法よりも一貫して良好な結果を導く。これには、より安定した学習と評価、顕著な高速推論が含まれ、拡散政策と同等の汎化性能を維持しながらも、ほとんどのケースでフローマッチングがわずかに良い性能を示す。我々のフレームワークは、ロボット操作のためのアフォーダンス学習と行動生成とフローマッチングをシームレスに統合する。
要約(オリジナル)
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot action trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot action trajectories guided by affordances in a supervised flow matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot action trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance achieves competitive performance and even outperforms some other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot action trajectories with flow matching leads to consistently favorable results in several robot manipulation benchmarks than some alternative behavior cloning methods. This includes more stable training and evaluation, and noticeably faster inference, while maintaining comparable generalization performance to diffusion policy, where flow matching performs marginally better in most cases. Our framework seamlessly unifies affordance learning and action generation with flow matching for robot manipulation.
arxiv情報
著者 | Fan Zhang,Michael Gienger |
発行日 | 2025-02-01 11:58:47+00:00 |
arxivサイト | arxiv_id(pdf) |