要約
マルチモーダル大規模言語モデル (MLLM) は、幅広いタスクにわたって顕著な機能を示していますが、ナビゲーション、環境研究、都市開発、および地理的および地理空間領域におけるその知識と能力は、まだ探求されていません。
災害対応。
私たちは、特にフロンティア モデル GPT-4V に焦点を当てて、これらのドメイン内の MLLM のさまざまなビジョン機能を調査する一連の実験を実施し、オープンソースの対応物と比較してそのパフォーマンスをベンチマークします。
私たちの方法論では、一連の視覚タスクで構成される小規模な地理ベンチマークを使用してこれらのモデルに挑戦し、複雑さの範囲全体でモデルの能力をテストします。
分析では、そのようなモデルが人間よりも優れている場合など、優れている部分だけでなく、失敗している部分も明らかになり、地理的領域におけるモデルの能力についてバランスの取れた見方が提供されます。
今後のモデルの比較・評価を可能にするため、ベンチマークを公開いたします。
要約(オリジナル)
Multimodal large language models (MLLMs) have shown remarkable capabilities across a broad range of tasks but their knowledge and abilities in the geographic and geospatial domains are yet to be explored, despite potential wide-ranging benefits to navigation, environmental research, urban development, and disaster response. We conduct a series of experiments exploring various vision capabilities of MLLMs within these domains, particularly focusing on the frontier model GPT-4V, and benchmark its performance against open-source counterparts. Our methodology involves challenging these models with a small-scale geographic benchmark consisting of a suite of visual tasks, testing their abilities across a spectrum of complexity. The analysis uncovers not only where such models excel, including instances where they outperform humans, but also where they falter, providing a balanced view of their capabilities in the geographic domain. To enable the comparison and evaluation of future models, our benchmark will be publicly released.
arxiv情報
著者 | Jonathan Roberts,Timo Lüddecke,Rehan Sheikh,Kai Han,Samuel Albanie |
発行日 | 2023-11-24 18:46:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google