要約
ロボットがさまざまなタスクを実行するには、意味的に豊かでありながら、タスク主導の認識と計画を実現するためにコンパクトで効率的な世界の 3D 表現が必要です。
最近のアプローチでは、大規模なビジョン言語モデルの機能を活用して、3D 表現でセマンティクスをエンコードしようとしています。
ただし、これらのアプローチでは、ポイントごとの特徴ベクトルを含むマップが生成される傾向があり、大規模な環境では適切に拡張できません。また、下流の計画に役立つ、環境内のエンティティ間の意味論的な空間関係も含まれません。
この研究では、3D シーンのためのオープンボキャブラリーのグラフ構造表現である ConceptGraphs を提案します。
ConceptGraphs は、2D 基礎モデルを活用し、その出力をマルチビュー関連付けによって 3D に融合することによって構築されます。
結果として得られる表現は、大規模な 3D データセットを収集したりモデルを微調整したりする必要がなく、新しいセマンティック クラスに一般化されます。
この表現の有用性を、抽象 (言語) プロンプトによって指定され、空間的および意味論的な概念に対する複雑な推論を必要とする下流の計画タスクの数を通じて実証します。
(プロジェクトページ: https://concept-graphs.github.io/ 解説ビデオ: https://youtu.be/mRhNkQwRYnc )
要約(オリジナル)
For robots to perform a wide variety of tasks, they require a 3D representation of the world that is semantically rich, yet compact and efficient for task-driven perception and planning. Recent approaches have attempted to leverage features from large vision-language models to encode semantics in 3D representations. However, these approaches tend to produce maps with per-point feature vectors, which do not scale well in larger environments, nor do they contain semantic spatial relationships between entities in the environment, which are useful for downstream planning. In this work, we propose ConceptGraphs, an open-vocabulary graph-structured representation for 3D scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing their output to 3D by multi-view association. The resulting representations generalize to novel semantic classes, without the need to collect large 3D datasets or finetune models. We demonstrate the utility of this representation through a number of downstream planning tasks that are specified through abstract (language) prompts and require complex reasoning over spatial and semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )
arxiv情報
著者 | Qiao Gu,Alihusein Kuwajerwala,Sacha Morin,Krishna Murthy Jatavallabhula,Bipasha Sen,Aditya Agarwal,Corban Rivera,William Paul,Kirsty Ellis,Rama Chellappa,Chuang Gan,Celso Miguel de Melo,Joshua B. Tenenbaum,Antonio Torralba,Florian Shkurti,Liam Paull |
発行日 | 2023-09-28 17:53:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google