GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

要約

ロボット工学における長年の課題は、構造化されていない現実世界の環境における視覚観察に基づいて、さまざまな操作タスクを実行できるエージェントを開発することです。
この目標を達成するには、ロボットはシーンの 3D 構造とセマンティクスを包括的に理解する必要があります。
この研究では、$\textbf{G}$eneralizable $\textbf{N}$eural 機能 $\textbf{F}$ を備えたマルチタスクロボット操作のための視覚的動作複製エージェント $\textbf{GNFactor}$ を紹介します。
畑。
GNFactor は、共有されたディープ 3D ボクセル表現を活用して、再構成モジュールとして一般化可能ニューラル フィールド (GNF) と意思決定モジュールとしてパーシーバー トランスフォーマーを共同で最適化します。
3D にセマンティクスを組み込むために、再構成モジュールは視覚言語基盤モデル ($\textit{e.g.}$、安定拡散) を利用して、豊富なセマンティクス情報を深い 3D ボクセルに抽出します。
3 つの実際のロボット タスクで GNFactor を評価し、限られた数のデモンストレーションで 10 の RLBench タスクで詳細なアブレーションを実行します。
私たちは、目に見えるタスクと目に見えないタスクにおいて、現在の最先端の手法と比べて GNFactor が大幅に向上していることを観察し、GNFactor の強力な一般化能力を実証しています。
私たちのプロジェクトのウェブサイトは https://yanjieze.com/GNFactor/ です。

要約(オリジナル)

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .

arxiv情報

著者 Yanjie Ze,Ge Yan,Yueh-Hua Wu,Annabella Macaluso,Yuying Ge,Jianglong Ye,Nicklas Hansen,Li Erran Li,Xiaolong Wang
発行日 2024-07-28 02:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク