要約
非構造化実世界環境において、視覚的観察から多様な操作タスクを実行できるエージェントを開発することは、ロボット工学における長年の課題である。この目標を達成するために、ロボットはシーンの3次元構造とセマンティクスを包括的に理解する必要がある。本研究では、$textbf{GNFactor}$という、$textbf{G}$一般化可能な$textbf{N}$聴覚特徴$textbf{F}$フィールドを持つ、マルチタスクロボット操作のための視覚行動クローニングエージェントを紹介する。GNFactorは、再構成モジュールとして一般化可能なニューラル・フィールド(GNF)を、意思決定モジュールとして知覚変換器(Perceiver Transformer)を、共有された深い3Dボクセル表現を活用して、共同で最適化する。3Dにセマンティクスを組み込むために、再構成モジュールは、視覚言語基礎モデル($textit{e.g.}$, Stable Diffusion)を利用して、深い3Dボクセルに豊富なセマンティクス情報を抽出する。GNFactorを3つの実ロボットタスクで評価し、10個のRLBenchタスクでデモを限定して詳細なアブレーションを行う。GNFactorの強力な汎化能力を実証するために、見たタスクと見たことのないタスクにおいて、GNFactorが現在の最先端手法よりも大幅に改善されていることを確認した。我々のプロジェクトのウェブサイトは https://yanjieze.com/GNFactor/ 。
要約(オリジナル)
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
arxiv情報
著者 | Yanjie Ze,Ge Yan,Yueh-Hua Wu,Annabella Macaluso,Yuying Ge,Jianglong Ye,Nicklas Hansen,Li Erran Li,Xiaolong Wang |
発行日 | 2023-09-01 10:00:11+00:00 |
arxivサイト | arxiv_id(pdf) |