FlowPolicy: Enabling Fast and Robust 3D Flow-based Policy via Consistency Flow Matching for Robot Manipulation

要約

ロボットは、専門家のデモンストレーションからポリシーを学習することで、複雑な操作スキルを習得できます。これは、視覚ベースの模倣学習としてよく知られています。
拡散およびフローマッチングモデルに基づいたポリシーの生成は、特にロボット操作タスクにおいて効果的であることが示されています。
ただし、再帰ベースのアプローチは、ノイズ分布からポリシー分布への作業において非効率であると推測され、効率と品質の間に困難なトレードオフが生じます。
これが、一貫性のあるフロー マッチングと 3D ビジョンに基づいた高速ポリシー生成のための新しいフレームワークである FlowPolicy を提案する動機となっています。
私たちのアプローチは、速度場の自己一貫性を正規化することでフローダイナミクスを洗練し、モデルが単一の推論ステップでタスク実行ポリシーを導出できるようにします。
具体的には、FlowPolicy は観察された 3D 点群で条件を設定します。一貫性フロー マッチングにより、異なる時間状態から同じアクション空間への直線フローが直接定義され、同時にその速度値が制限されます。つまり、ノイズからロボットの動作までの軌跡を近似します。
アクション空間内の速度場の自己一貫性を正規化することにより、推論効率が向上します。
Adroit と Metaworld での FlowPolicy の有効性を検証し、最先端の手法と比較して競争力のある平均成功率を維持しながら、推論速度が 7$\times$ 向上することを実証しました。
コードは https://github.com/zql-kk/FlowPolicy で入手できます。

要約(オリジナル)

Robots can acquire complex manipulation skills by learning policies from expert demonstrations, which is often known as vision-based imitation learning. Generating policies based on diffusion and flow matching models has been shown to be effective, particularly in robotic manipulation tasks. However, recursion-based approaches are inference inefficient in working from noise distributions to policy distributions, posing a challenging trade-off between efficiency and quality. This motivates us to propose FlowPolicy, a novel framework for fast policy generation based on consistency flow matching and 3D vision. Our approach refines the flow dynamics by normalizing the self-consistency of the velocity field, enabling the model to derive task execution policies in a single inference step. Specifically, FlowPolicy conditions on the observed 3D point cloud, where consistency flow matching directly defines straight-line flows from different time states to the same action space, while simultaneously constraining their velocity values, that is, we approximate the trajectories from noise to robot actions by normalizing the self-consistency of the velocity field within the action space, thus improving the inference efficiency. We validate the effectiveness of FlowPolicy in Adroit and Metaworld, demonstrating a 7$\times$ increase in inference speed while maintaining competitive average success rates compared to state-of-the-art methods. Code is available at https://github.com/zql-kk/FlowPolicy.

arxiv情報

著者 Qinglun Zhang,Zhen Liu,Haoqiang Fan,Guanghui Liu,Bing Zeng,Shuaicheng Liu
発行日 2024-12-15 05:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク