Space3D-Bench: Spatial 3D Question Answering Benchmark

要約

環境の空間特性に関する質問に答えることは、特にオブジェクト間の関係の点で 3D 世界の理解が不足しているため、既存の言語と視覚の基礎モデルに課題をもたらします。
この分野を前進させるために、全体としてはさまざまな質問を提供する複数の 3D Q&A データセットが提案されましたが、それらは個別に 3D 推論の特定の側面に焦点を当てているか、データ モダリティの点で制限されています。
これに対処するために、Space3D-Bench を紹介します。これは、点群、ポーズされた RGB-D 画像、ナビゲーション メッシュ、3D オブジェクト検出などのさまざまなデータ モダリティを提供する、レプリカ データセットのシーンに関連する 1000 の一般的な空間に関する質問と回答のコレクションです。
質問が広範囲の 3D 目的を確実にカバーできるようにするために、地理情報システムにヒントを得た屋内空間質問分類法を提案し、それを使用してデータセットのバランスをそれに応じて調整します。
さらに、ビジョン言語モデルによるテキストと画像の両方の理解を活用して、応答をグランドトゥルースのテキスト情報または関連する視覚データと比較することにより、事前定義されたグランドトゥルースの回答に基づいて自然言語応答を採点する評価システムを提供します。
最後に、基礎モデルの世界理解と豊富なコンテキスト検索を統合する RAG3D-Chat と呼ばれるベースラインを導入し、提案されたデータセットで 67% の精度を達成しました。

要約(オリジナル)

Answering questions about the spatial properties of the environment poses challenges for existing language and vision foundation models due to a lack of understanding of the 3D world notably in terms of relationships between objects. To push the field forward, multiple 3D Q&A datasets were proposed which, overall, provide a variety of questions, but they individually focus on particular aspects of 3D reasoning or are limited in terms of data modalities. To address this, we present Space3D-Bench – a collection of 1000 general spatial questions and answers related to scenes of the Replica dataset which offers a variety of data modalities: point clouds, posed RGB-D images, navigation meshes and 3D object detections. To ensure that the questions cover a wide range of 3D objectives, we propose an indoor spatial questions taxonomy inspired by geographic information systems and use it to balance the dataset accordingly. Moreover, we provide an assessment system that grades natural language responses based on predefined ground-truth answers by leveraging a Vision Language Model’s comprehension of both text and images to compare the responses with ground-truth textual information or relevant visual data. Finally, we introduce a baseline called RAG3D-Chat integrating the world understanding of foundation models with rich context retrieval, achieving an accuracy of 67% on the proposed dataset.

arxiv情報

著者 Emilia Szymanska,Mihai Dusmanu,Jan-Willem Buurlage,Mahdi Rad,Marc Pollefeys
発行日 2024-08-29 16:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク