3D Question Answering for City Scene Understanding

要約

3D マルチモーダル質問応答 (MQA) は、インテリジェント エージェントが 3D 環境で周囲の状況を理解できるようにすることで、シーンの理解に重要な役割を果たします。
既存の研究は主に屋内の家事タスクと屋外の路側自動運転タスクに焦点を当ててきましたが、都市レベルのシーン理解タスクの調査は限られていました。
さらに、既存の研究は、都市レベルでの空間意味情報と人間と環境の相互作用情報が欠如しているため、都市シーンを理解する際の課題に直面しています。これらの課題に対処するために、私たちはデータセットと手法の両方の観点から 3D MQA を調査します。
データセットの観点から、都市レベルのシーン理解のために City-3DQA という名前の新しい 3D MQA データセットを紹介します。これは、都市内のシーンのセマンティックおよび人間と環境のインタラクティブなタスクを組み込んだ最初のデータセットです。
方法の観点から、シーングラフを利用して空間意味論を導入するシーングラフ強化都市レベル理解法(Sg-CityU)を提案します。
新しいベンチマークが報告され、私たちが提案する Sg-CityU は、City-3DQA のさまざまな設定で 63.94 % および 63.76 % の精度を達成しました。
屋内 3D MQA 手法や高度なラージ言語モデル (LLM) を使用したゼロショットと比較して、Sg-CityU は堅牢性と汎用性において最先端 (SOTA) のパフォーマンスを実証します。

要約(オリジナル)

3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.

arxiv情報

著者 Penglei Sun,Yaoxian Song,Xiang Liu,Xiaofei Yang,Qiang Wang,Tiefeng Li,Yang Yang,Xiaowen Chu
発行日 2024-07-24 16:22:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク