3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

要約

拡散ポリシーは、ロボットと環境の状態を条件としてロボットの動作分布を学習する条件付き拡散モデルです。
これらは最近、決定論的および代替アクション分布学習の定式化の両方を上回るパフォーマンスを示すことが示されました。
3D ロボット ポリシーは、感知された深度を使用して単一または複数のカメラ ビューから集約された 3D シーン フィーチャ表現を使用します。
これらは、カメラの視点全体で 2D の対応物よりも一般化が優れていることが示されています。
私たちはこれら 2 つの作業を統合し、3D 視覚シーンからの情報、言語命令、およびノイズのある 3D ロボットのポーズ軌道のノイズを予測する固有受容を融合する新しい 3D ノイズ除去トランスフォーマーを備えたニューラル ポリシーである 3D ディフューザー アクターを提示します。
3D ディフューザー アクタは、マルチビュー セットアップで現在の SOTA と比較して 18.1% の絶対パフォーマンス ゲイン、シングルビュー セットアップで 13.1% の絶対パフォーマンス ゲインを備え、RLBench で新しい最先端を実現します。
CALVIN ベンチマークでは、現在の SOTA よりも相対的に 9% 向上しています。
また、いくつかのデモンストレーションから、現実世界でロボットマニピュレーターを制御する方法も学びます。
現在の SOTA ポリシーとモデルのアブレーションとの徹底的な比較を通じて、3D ディフューザー アクターの設計上の選択が 2D 表現、回帰と分類の目的、絶対的な注意、全体的な非トークン化 3D シーンの埋め込みよりも劇的に優れていることを示します。

要約(オリジナル)

Diffusion policies are conditional diffusion models that learn robot action distributions conditioned on the robot and environment state. They have recently shown to outperform both deterministic and alternative action distribution learning formulations. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy equipped with a novel 3D denoising transformer that fuses information from the 3D visual scene, a language instruction and proprioception to predict the noise in noised 3D robot pose trajectories. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 18.1% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it improves over the current SOTA by a 9% relative increase. It also learns to control a robot manipulator in the real world from a handful of demonstrations. Through thorough comparisons with the current SOTA policies and ablations of our model, we show 3D Diffuser Actor’s design choices dramatically outperform 2D representations, regression and classification objectives, absolute attentions, and holistic non-tokenized 3D scene embeddings.

arxiv情報

著者 Tsung-Wei Ke,Nikolaos Gkanatsios,Katerina Fragkiadaki
発行日 2024-07-25 14:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク