UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

要約

大規模マルチモーダル モデル (LMM) の最近の評価では、さまざまな領域での機能が調査されていますが、特に都市環境に焦点を当てたベンチマークはほとんどありません。
さらに、既存の都市ベンチマークは、単一のビューの下で基本的な地域レベルの都市タスクを備えた LMM を評価することに限定されており、都市環境における LMM の能力の評価が不完全になっています。
これらの問題に対処するために、複雑なマルチビューの都市シナリオで LMM を評価するために設計された包括的なベンチマークである UrBench を紹介します。
UrBench には、地域レベルと役割レベルの両方で、地理位置特定、シーン推論、シーン理解、オブジェクト理解の 4 つのタスクの側面をカバーする 11.6K の綿密に精選された質問が含まれており、合計 14 のタスク タイプになります。
UrBench の構築では、既存のデータセットのデータを利用し、さらに 11 都市からデータを収集し、クロスビュー検出マッチング手法を使用して新しいアノテーションを作成します。
これらの画像と注釈を使用して、LMM ベース、ルールベース、人間ベースの方法を統合して、大規模で高品質な質問を構築します。
21 の LMM に対する私たちの評価では、現在の LMM が都市環境ではいくつかの面で苦戦していることがわかりました。
最高のパフォーマンスを発揮する GPT-4o であっても、数を数えるなどの単純なタスクから方向、位置特定、物体の属性認識などの複雑なタスクに至るまで、ほとんどのタスクで人間に遅れをとっており、平均パフォーマンス ギャップは 17.4% です。
また、私たちのベンチマークでは、特にビュー間の関係の理解に関して、LMM がさまざまな都市ビューで一貫性のない動作を示すことも明らかになりました。
UrBench データセットとベンチマーク結果は、https://opendatalab.github.io/UrBench/ で公開されます。

要約(オリジナル)

Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs’ abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.

arxiv情報

著者 Baichuan Zhou,Haote Yang,Dairong Chen,Junyan Ye,Tianyi Bai,Jinhua Yu,Songyang Zhang,Dahua Lin,Conghui He,Weijia Li
発行日 2024-08-30 13:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク