3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

要約

私たちはロボット操作のための普及政策と 3D シーン表現を融合させます。
拡散ポリシーは、条件付き拡散モデルを使用して、ロボットと環境の状態を条件としたアクションの分布を学習します。
これらは最近、決定論的および代替の状態条件付きアクション分布学習法の両方を上回るパフォーマンスを示すことが示されました。
3D ロボット ポリシーは、感知された深度を使用して単一または複数のカメラ ビューから集約された 3D シーン フィーチャ表現を使用します。
これらは、カメラの視点全体で 2D の対応物よりも一般化が優れていることが示されています。
私たちはこれら 2 つの作業を統合し、言語命令が与えられると視覚シーンの 3D 表現とその条件を構築し、ロボットのエンドエフェクターの 3D 回転と移動のノイズを反復的に除去するニューラル ポリシー アーキテクチャである 3D ディフューザー アクターを提示します。
ノイズ除去の各反復で、モデルはエンドエフェクターのポーズ推定を 3D シーン トークンとして表し、他の 3D 視覚トークンおよび言語トークンに対する 3D 相対的な注意を使用して特徴付けすることにより、それぞれの 3D 変換および回転エラーを予測します。
3D ディフューザー アクターは、マルチビュー セットアップで現在の SOTA と比較して 16.3% の絶対パフォーマンス ゲイン、シングルビュー セットアップで 13.1% の絶対パフォーマンス ゲインを備え、RLBench で新しい最先端を実現します。
CALVIN ベンチマークでは、0.2 個多くのタスクを正常に実行できるため、ゼロショットの未見のシーンの一般化の設定で現在の SOTA よりも優れており、相対的に 7% 増加しています。
いくつかのデモンストレーションから、現実世界でも機能することが確認されています。
3D シーンの特徴付けや 3D の相対的な注意など、モデルのアーキテクチャ設計の選択を除去し、それらがすべて一般化に役立つことを示します。
私たちの結果は、3D シーン表現と強力な生成モデリングが、デモンストレーションからロボットを効率的に学習するための鍵であることを示唆しています。

要約(オリジナル)

We marry diffusion policies and 3D scene representations for robot manipulation. Diffusion policies learn the action distribution conditioned on the robot and environment state using conditional diffusion models. They have recently shown to outperform both deterministic and alternative state-conditioned action distribution learning methods. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy architecture that, given a language instruction, builds a 3D representation of the visual scene and conditions on it to iteratively denoise 3D rotations and translations for the robot’s end-effector. At each denoising iteration, our model represents end-effector pose estimates as 3D scene tokens and predicts the 3D translation and rotation error for each of them, by featurizing them using 3D relative attention to other 3D visual and language tokens. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 16.3% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it outperforms the current SOTA in the setting of zero-shot unseen scene generalization by being able to successfully run 0.2 more tasks, a 7% relative increase. It also works in the real world from a handful of demonstrations. We ablate our model’s architectural design choices, such as 3D scene featurization and 3D relative attentions, and show they all help generalization. Our results suggest that 3D scene representations and powerful generative modeling are keys to efficient robot learning from demonstrations.

arxiv情報

著者 Tsung-Wei Ke,Nikolaos Gkanatsios,Katerina Fragkiadaki
発行日 2024-03-11 22:05:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク