要約
コンピュータービジョンとロボット工学の領域では、身体化されたエージェントは環境を探索し、人間の指示を実行することが期待されています。
これには、一人称観察に基づいて 3D シーンを完全に理解し、それらをインタラクション用の言語に文脈化する能力が必要です。
ただし、従来の研究は、グローバルな視点から見たシーンレベルの入出力セットアップに重点を置いています。
このギャップに対処するために、総合的な 3D シーンを理解するためのマルチモーダルで自己中心的な 3D 認識データセットおよびベンチマークである EmbodiedScan を導入します。
これには、100 万のエゴ中心の RGB-D ビュー、100 万の言語プロンプト、760 以上のカテゴリ (一部は LVIS と部分的に一致する) にわたる 160,000 の 3D 指向ボックス、および 80 の共通カテゴリによる高密度のセマンティック占有をカプセル化する 5,000 を超えるスキャンが含まれます。
このデータベースに基づいて、Embodied Perceptron というベースライン フレームワークを導入します。
これは、任意の数のマルチモーダル入力を処理することができ、私たちが設定した 2 つの一連のベンチマーク (つまり、基本的な 3D 認識タスクと言語ベースのタスク) 内と実際の環境の両方で、驚くべき 3D 認識能力を実証します。
コード、データセット、ベンチマークは https://github.com/OpenRobotLab/EmbodiedScan で入手できます。
要約(オリジナル)
In the realm of computer vision and robotics, embodied agents are expected to explore their environment and carry out human instructions. This necessitates the ability to fully understand 3D scenes given their first-person observations and contextualize them into language for interaction. However, traditional research focuses more on scene-level input and output setups from a global view. To address the gap, we introduce EmbodiedScan, a multi-modal, ego-centric 3D perception dataset and benchmark for holistic 3D scene understanding. It encompasses over 5k scans encapsulating 1M ego-centric RGB-D views, 1M language prompts, 160k 3D-oriented boxes spanning over 760 categories, some of which partially align with LVIS, and dense semantic occupancy with 80 common categories. Building upon this database, we introduce a baseline framework named Embodied Perceptron. It is capable of processing an arbitrary number of multi-modal inputs and demonstrates remarkable 3D perception capabilities, both within the two series of benchmarks we set up, i.e., fundamental 3D perception tasks and language-grounded tasks, and in the wild. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.
arxiv情報
著者 | Tai Wang,Xiaohan Mao,Chenming Zhu,Runsen Xu,Ruiyuan Lyu,Peisen Li,Xiao Chen,Wenwei Zhang,Kai Chen,Tianfan Xue,Xihui Liu,Cewu Lu,Dahua Lin,Jiangmiao Pang |
発行日 | 2023-12-26 18:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google