要約
3D 知覚表現は、オクルージョンを簡単にエンコードし、空間推論を簡素化するため、ロボットの操作に非常に適しています。
多くの操作タスクでは、エンドエフェクターの姿勢予測に高い空間精度が必要ですが、これには通常、処理コストの高い高解像度の 3D フィーチャ グリッドが必要です。
その結果、ほとんどの操作ポリシーは 3D 誘導バイアスを無視して 2D で直接動作します。
この論文では、当面のタスクに応じて適応可能な解像度を持つ 3D 特徴フィールドを使用してロボットのワークスペースを表現する操作ポリシー トランスフォーマーである Act3D を紹介します。
モデルは、検知された深度を使用して 2D の事前トレーニングされた特徴を 3D に引き上げ、それらに注意してサンプリングされた 3D ポイントの特徴を計算します。
粗い方法から細かい方法まで 3D ポイント グリッドをサンプリングし、相対位置の注意を使用して特徴付けし、次のラウンドのポイント サンプリングで焦点を当てる場所を選択します。
このようにして、高空間解像度の 3D アクション マップを効率的に計算します。
Act3D は、確立された操作ベンチマークである RL-Bench に新しい最先端を設定し、74 の RLBench タスクで以前の SOTA 2D マルチビュー ポリシーと比較して 10% の絶対的な改善を達成し、3 分の 1 のコンピューティングで 22% の絶対的な改善を達成します。
以前の SOTA 3D ポリシーよりも優れています。
私たちは、相対的な空間的注意、大規模な視覚言語の事前訓練された 2D バックボーン、およびアブレーション実験における粗い注意から細かい注意までの重み付けの重要性を定量化します。
コードとビデオはプロジェクト Web サイト (https://act3d.github.io/) で入手できます。
要約(オリジナル)
3D perceptual representations are well suited for robot manipulation as they easily encode occlusions and simplify spatial reasoning. Many manipulation tasks require high spatial precision in end-effector pose prediction, which typically demands high-resolution 3D feature grids that are computationally expensive to process. As a result, most manipulation policies operate directly in 2D, foregoing 3D inductive biases. In this paper, we introduce Act3D, a manipulation policy transformer that represents the robot’s workspace using a 3D feature field with adaptive resolutions dependent on the task at hand. The model lifts 2D pre-trained features to 3D using sensed depth, and attends to them to compute features for sampled 3D points. It samples 3D point grids in a coarse to fine manner, featurizes them using relative-position attention, and selects where to focus the next round of point sampling. In this way, it efficiently computes 3D action maps of high spatial resolution. Act3D sets a new state-of-the-art in RL-Bench, an established manipulation benchmark, where it achieves 10% absolute improvement over the previous SOTA 2D multi-view policy on 74 RLBench tasks and 22% absolute improvement with 3x less compute over the previous SOTA 3D policy. We quantify the importance of relative spatial attention, large-scale vision-language pre-trained 2D backbones, and weight tying across coarse-to-fine attentions in ablative experiments. Code and videos are available on our project website: https://act3d.github.io/.
arxiv情報
著者 | Theophile Gervet,Zhou Xian,Nikolaos Gkanatsios,Katerina Fragkiadaki |
発行日 | 2023-10-19 19:36:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google