PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

要約

ロボットが自然言語命令に基づいて操作タスクを理解して実行できるようにすることは、ロボット工学における長期的な目標です。
言語ガイドによる操作の主流のアプローチでは 2D 画像表現が使用されますが、マルチビュー カメラを組み合わせて正確な 3D 位置と関係を推測することが困難になります。
これらの制限に対処するために、言語ガイド付き操作のための PolarNet と呼ばれる 3D 点群ベースのポリシーを提案します。
慎重に設計された点群入力、効率的な点群エンコーダー、およびマルチモーダル トランスフォーマーを利用して 3D 点群表現を学習し、それらをアクション予測のための言語命令と統合します。
RLBench ベンチマークで行われたさまざまな実験で、PolarNet は効果的でデータ効率が高いことが示されています。
シングルタスク学習とマルチタスク学習の両方において、最先端の 2D および 3D アプローチよりも優れたパフォーマンスを発揮します。
実際のロボットでも有望な結果が得られます。

要約(オリジナル)

The ability for robots to comprehend and execute manipulation tasks based on natural language instructions is a long-term goal in robotics. The dominant approaches for language-guided manipulation use 2D image representations, which face difficulties in combining multi-view cameras and inferring precise 3D positions and relationships. To address these limitations, we propose a 3D point cloud based policy called PolarNet for language-guided manipulation. It leverages carefully designed point cloud inputs, efficient point cloud encoders, and multimodal transformers to learn 3D point cloud representations and integrate them with language instructions for action prediction. PolarNet is shown to be effective and data efficient in a variety of experiments conducted on the RLBench benchmark. It outperforms state-of-the-art 2D and 3D approaches in both single-task and multi-task learning. It also achieves promising results on a real robot.

arxiv情報

著者 Shizhe Chen,Ricardo Garcia,Cordelia Schmid,Ivan Laptev
発行日 2023-09-27 11:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク