要約
最近の大規模言語モデル (LLM)、ビジョン言語モデル (VLM)、およびその他の一般的な基礎モデルの台頭により、自然言語のみを入力として与えられた多様な環境で動作できる、マルチモーダルでマルチタスクを具現化したエージェントの可能性が高まっています。
。
そのような応用分野の 1 つは、自然言語命令を使用した屋内ナビゲーションです。
ただし、最近の進歩にも関わらず、特にきめの細かいクラスに属するオブジェクトが多数含まれる可能性のある任意のシーンでは、空間的推論と意味論的な理解を必要とするため、この問題は依然として困難です。
この課題に対処するために、既存のデータセットからスキャンされた 11.5,000 を超える 3D 屋内部屋、オブジェクト間のヒューリスティックに生成された 2,350 万のセマンティック関係で構成される、3D シーンにおける視覚と言語ガイド付きアクション (VLA-3D) 用の最大の実世界データセットを厳選しました。
、および 970 万の合成的に生成された参照ステートメント。
私たちのデータセットは、処理された 3D 点群、セマンティックなオブジェクトと部屋の注釈、シーン グラフ、ナビゲート可能な自由空間の注釈、およびオブジェクトの曖昧さを解消するためのビューに依存しない空間関係に特に焦点を当てた参照言語ステートメントで構成されています。
これらの機能の目的は、特に、変化するシーンと不完全な言語のオープンワールドである程度の堅牢性を保証する必要がある現実世界のシステムにおいて、ナビゲーションの下流タスクを支援することです。
現在の最先端のモデルを使用してデータセットをベンチマークし、パフォーマンスのベースラインを取得します。
データセットを生成および視覚化するすべてのコードは公開されています。https://github.com/HaochenZ11/VLA-3D を参照してください。
このデータセットのリリースにより、変化に強いセマンティック 3D シーンの理解の進歩のためのリソースと、インタラクティブな屋内ナビゲーション システムの開発を支援するリソースを提供したいと考えています。
要約(オリジナル)
With the recent rise of Large Language Models (LLMs), Vision-Language Models (VLMs), and other general foundation models, there is growing potential for multimodal, multi-task embodied agents that can operate in diverse environments given only natural language as input. One such application area is indoor navigation using natural language instructions. However, despite recent progress, this problem remains challenging due to the spatial reasoning and semantic understanding required, particularly in arbitrary scenes that may contain many objects belonging to fine-grained classes. To address this challenge, we curate the largest real-world dataset for Vision and Language-guided Action in 3D Scenes (VLA-3D), consisting of over 11.5K scanned 3D indoor rooms from existing datasets, 23.5M heuristically generated semantic relations between objects, and 9.7M synthetically generated referential statements. Our dataset consists of processed 3D point clouds, semantic object and room annotations, scene graphs, navigable free space annotations, and referential language statements that specifically focus on view-independent spatial relations for disambiguating objects. The goal of these features is to aid the downstream task of navigation, especially on real-world systems where some level of robustness must be guaranteed in an open world of changing scenes and imperfect language. We benchmark our dataset with current state-of-the-art models to obtain a performance baseline. All code to generate and visualize the dataset is publicly released, see https://github.com/HaochenZ11/VLA-3D. With the release of this dataset, we hope to provide a resource for progress in semantic 3D scene understanding that is robust to changes and one which will aid the development of interactive indoor navigation systems.
arxiv情報
著者 | Haochen Zhang,Nader Zantout,Pujith Kachana,Zongyuan Wu,Ji Zhang,Wenshan Wang |
発行日 | 2024-11-05 22:42:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google