Act3D: Infinite Resolution Action Detection Transformer for Robotic Manipulation

要約

3D 知覚表現は、オクルージョンを簡単にエンコードし、空間推論を簡素化するため、ロボットの操作に非常に適しています。
多くの操作タスクでは、エンドエフェクターの姿勢予測に高い空間精度が必要であり、通常、処理に高い計算コストがかかる高解像度の 3D 知覚グリッドが要求されます。
その結果、ほとんどの操作ポリシーは 3D 誘導バイアスを無視して 2D で直接動作します。
この論文では、適応空間計算による 3D 検出として 6-DoF キーポーズ予測をキャストする操作ポリシー Transformer である Act3D を提案します。
1 つまたは複数のカメラ ビューから投影されていない 3D 特徴群を入力として受け取り、自由空間内の 3D 点グリッドを粗い方法から細かい方法で繰り返しサンプリングし、物理的な特徴群に対する相対的な空間的注意を使用して特徴付けし、最適な特徴点を選択します。
エンドエフェクターの姿勢予測用。
Act3D は、確立された操作ベンチマークである RLbench に新たな最先端技術を導入します。
私たちのモデルは、74 個の RLbench タスクで以前の SOTA 2D マルチビュー ポリシーと比較して 10% の絶対的な改善を達成し、以前の SOTA 3D ポリシーと比較して 3 分の 1 のコンピューティングで 22% の絶対的な改善を達成しました。
徹底的なアブレーションでは、相対的な空間的注意、事前に訓練された大規模な視覚言語の 2D バックボーン、および粗い注意から細かい注意までの重み付けの重要性を示します。
コードとビデオはプロジェクト サイト https://act3d.github.io/ で入手できます。

要約(オリジナル)

3D perceptual representations are well suited for robot manipulation as they easily encode occlusions and simplify spatial reasoning. Many manipulation tasks require high spatial precision in end-effector pose prediction, typically demanding high-resolution 3D perceptual grids that are computationally expensive to process. As a result, most manipulation policies operate directly in 2D, foregoing 3D inductive biases. In this paper, we propose Act3D, a manipulation policy Transformer that casts 6-DoF keypose prediction as 3D detection with adaptive spatial computation. It takes as input 3D feature clouds unprojected from one or more camera views, iteratively samples 3D point grids in free space in a coarse-to-fine manner, featurizes them using relative spatial attention to the physical feature cloud, and selects the best feature point for end-effector pose prediction. Act3D sets a new state-of-the-art in RLbench, an established manipulation benchmark. Our model achieves 10% absolute improvement over the previous SOTA 2D multi-view policy on 74 RLbench tasks and 22% absolute improvement with 3x less compute over the previous SOTA 3D policy. In thorough ablations, we show the importance of relative spatial attention, large-scale vision-language pre-trained 2D backbones, and weight tying across coarse-to-fine attentions. Code and videos are available at our project site: https://act3d.github.io/.

arxiv情報

著者 Theophile Gervet,Zhou Xian,Nikolaos Gkanatsios,Katerina Fragkiadaki
発行日 2023-06-30 17:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク