要約
我々は、2 つの基本的な課題に焦点を当てた支援ロボット操作のフレームワークを紹介します。1 つは、特に人間が関与するマルチタスク データの収集に多大な労力を必要とする日常生活のシナリオにおいて、大規模モデルを下流のシーン アフォーダンス理解タスクに効率的に適応させることです。
2 つ目は、視覚アフォーダンス モデルを基礎にしてロボットの軌道を効果的に学習することです。
マルチタスク シナリオでの操作アフォーダンスを予測するために、学習可能なテキスト プロンプトをフリーズされたビジョン モデルの前に追加する、パラメーター効率の高いプロンプト チューニング手法を採用することで、最初の課題に取り組みます。
次に、教師ありフローマッチング法でアフォーダンスに導かれてロボットの軌道を学習することを提案します。
フロー マッチングは、ロボットの視覚運動ポリシーを、ランダムなウェイポイントを望ましいロボットの軌道に流す条件付きプロセスとして表します。
最後に、フレームワークをテストするために、日常生活のアクティビティ全体にわたる 10 のタスクを含む現実世界のデータセットを導入します。
私たちの広範な評価により、言語プロンプターを使用した操作アフォーダンスを学習するための提案されたプロンプト調整方法が、パラメーター効率を満たしながら、競争力のあるパフォーマンスを達成し、データスケール全体で他の微調整プロトコルを上回るパフォーマンスを発揮することが強調されています。
フロー マッチング ポリシーを使用してマルチタスク ロボットの軌道を学習すると、特にマルチモーダルなロボットの動作分布を考慮した場合、代替の動作複製手法よりも一貫して汎化パフォーマンスが向上し、推論が高速化されます。
私たちのフレームワークは、アフォーダンス モデルの学習と軌道生成を、ロボット操作のためのフロー マッチングとシームレスに統合します。
要約(オリジナル)
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with flow matching policy also leads to consistently better generalization performance and faster inference than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.
arxiv情報
著者 | Fan Zhang,Michael Gienger |
発行日 | 2024-11-14 14:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google