Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection

要約

3D 認識能力は、汎用化可能なロボット操作にとって重要です。
最近の基礎モデルは、RGB ベースの入力による認識と意思決定において大幅な進歩を遂げていますが、3D 認識が欠如しているため、きめの細かいロボット操作タスクでの有効性は制限されています。
これらの制限に対処するために、ポリシーの微調整に RGB 深度モダリティを活用し、堅牢性のために RGB 画像のみに依存する深度情報注入 ($\bold{DI}^{\bold{2}}$) フレームワークを提案します。
そして効率的な展開。
具体的には、深度情報に関連する空間的な事前知識を抽出し、RGB 入力から仮想深度情報を生成してポリシー展開を支援する深度補完モジュール (DCM) を導入します。
さらに、ノイズを除去し、深度予測からの累積誤差を削減するために、深度認識コードブック (DAC) を提案します。
推論フェーズでは、このフレームワークは RGB 入力と正確に予測された深度データを使用して操作アクションを生成します。
私たちは、シミュレートされたLIBERO環境と現実世界のシナリオで実験を行い、実験結果は、私たちの方法がロボット操作のための3D認識能力を備えた事前トレーニングされたRGBベースのポリシーを効果的に強化できることを証明しました。
Web サイトは https://gewu-lab.github.io/DepthHelps-IROS2024 で公開されています。

要約(オリジナル)

3D perception ability is crucial for generalizable robotic manipulation. While recent foundation models have made significant strides in perception and decision-making with RGB-based input, their lack of 3D perception limits their effectiveness in fine-grained robotic manipulation tasks. To address these limitations, we propose a Depth Information Injection ($\bold{DI}^{\bold{2}}$) framework that leverages the RGB-Depth modality for policy fine-tuning, while relying solely on RGB images for robust and efficient deployment. Concretely, we introduce the Depth Completion Module (DCM) to extract the spatial prior knowledge related to depth information and generate virtual depth information from RGB inputs to aid policy deployment. Further, we propose the Depth-Aware Codebook (DAC) to eliminate noise and reduce the cumulative error from the depth prediction. In the inference phase, this framework employs RGB inputs and accurately predicted depth data to generate the manipulation action. We conduct experiments on simulated LIBERO environments and real-world scenarios, and the experiment results prove that our method could effectively enhance the pre-trained RGB-based policy with 3D perception ability for robotic manipulation. The website is released at https://gewu-lab.github.io/DepthHelps-IROS2024.

arxiv情報

著者 Xincheng Pang,Wenke Xia,Zhigang Wang,Bin Zhao,Di Hu,Dong Wang,Xuelong Li
発行日 2024-08-09 14:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク