3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

要約

操作は長い間ロボットにとって挑戦的な作業でしたが、人間はマグカップラックにカップを掛けるなど、オブジェクトとの複雑な相互作用を簡単に実行できます。
主な理由は、ロボットの操作スキルを教えるための大規模で均一なデータセットがないことです。
現在のロボットデータセットは、多くの場合、単純なシーン内のさまざまなアクションスペースでロボットアクションを記録します。
これにより、ロボットが妨げられ、さまざまなシーン内のさまざまなロボットの統一された堅牢なアクション表現が学習されます。
人間が操作タスクをどのように理解しているかを観察すると、オブジェクトが3D空間でどのように移動するかを理解することが、アクションを導くための重要な手がかりであることがわかります。
この手がかりは具体化に依存しており、人間と異なるロボットの両方に適しています。
これにより動機付けられているため、人間とロボットの操作データの両方から3Dフローワールドモデルを学ぶことを目指しています。
このモデルは、3D空間での相互作用するオブジェクトの将来の動きを予測し、操作のためのアクション計画を導きます。
具体的には、移動オブジェクトの自動検出パイプラインを介して、マニフロー-10Kという名前の大規模な3D光フローデータセットを合成します。
ビデオ拡散ベースのワールドモデルは、これらのデータから操作物理学を学習し、言語の指示に条件付けられた3D光フロー軌跡を生成します。
生成された3Dオブジェクト光フローを使用すると、フロー誘導レンダリングメカニズムを提案します。これにより、予測された最終状態をレンダリングし、GPT-4Oをレバレッジして、予測フローがタスクの説明と整合するかどうかを評価します。
これにより、ロボットに閉ループ計画能力が装備されます。
最後に、操作のためのロボットアクションの塊を決定するための最適化ポリシーの制約として、予測される3D光フローを考慮します。
広範な実験は、多様なロボット操作タスク全体にわたって強力な一般化と、ハードウェア固有のトレーニングなしの信頼できる交差体拡大適応を実証しています。

要約(オリジナル)

Manipulation has long been a challenging task for robots, while humans can effortlessly perform complex interactions with objects, such as hanging a cup on the mug rack. A key reason is the lack of a large and uniform dataset for teaching robots manipulation skills. Current robot datasets often record robot action in different action spaces within a simple scene. This hinders the robot to learn a unified and robust action representation for different robots within diverse scenes. Observing how humans understand a manipulation task, we find that understanding how the objects should move in the 3D space is a critical clue for guiding actions. This clue is embodiment-agnostic and suitable for both humans and different robots. Motivated by this, we aim to learn a 3D flow world model from both human and robot manipulation data. This model predicts the future movement of the interacting objects in 3D space, guiding action planning for manipulation. Specifically, we synthesize a large-scale 3D optical flow dataset, named ManiFlow-110k, through a moving object auto-detect pipeline. A video diffusion-based world model then learns manipulation physics from these data, generating 3D optical flow trajectories conditioned on language instructions. With the generated 3D object optical flow, we propose a flow-guided rendering mechanism, which renders the predicted final state and leverages GPT-4o to assess whether the predicted flow aligns with the task description. This equips the robot with a closed-loop planning ability. Finally, we consider the predicted 3D optical flow as constraints for an optimization policy to determine a chunk of robot actions for manipulation. Extensive experiments demonstrate strong generalization across diverse robotic manipulation tasks and reliable cross-embodiment adaptation without hardware-specific training.

arxiv情報

著者 Hongyan Zhi,Peihao Chen,Siyuan Zhou,Yubo Dong,Quanxi Wu,Lei Han,Mingkui Tan
発行日 2025-06-06 16:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク