要約
最近、広範な一般知識と強力な推論能力を備えた大規模言語モデル (LLM) が急速に開発され、広く応用されています。
LLM またはビジョン言語モデル (VLM) の体系的かつ信頼性の高い評価は、それらをさまざまな分野に適用および開発する上で重要なステップです。
都市部の限られたタスクに対する LLM の有用性については、初期の段階からいくつかの調査が行われてきましたが、体系的でスケーラブルな評価ベンチマークはまだ不足しています。
都市研究のための体系的な評価ベンチマークを構築する際の課題は、都市データの多様性、応用シナリオの複雑さ、都市環境の非常に動的な性質にあります。
この論文では、都市研究におけるさまざまなタスクに対する LLM の機能を評価するための最初の体系的なベンチマークとして、対話型シミュレーター ベースの評価プラットフォームである CityBench を設計します。
まず、多様な都市データを統合する CityData と、きめ細かい都市ダイナミクスをシミュレートする CitySimu を構築します。
CityData と CitySimu に基づいて、知覚理解と意思決定の 2 つのカテゴリーで 8 つの代表的な都市タスクを CityBench として設計します。
世界 13 都市の 30 の有名な LLM および VLM からの広範な結果により、高度な LLM および VLM は、人間のダイナミクスや意味推論の理解など、常識と意味理解能力を必要とする多様な都市タスクにおいて競争力のあるパフォーマンスを達成できることがわかりました。
都会的なイメージ。
一方で、地理空間予測や交通管制など、専門的な知識と高度な推論能力を必要とする都市の課題を解決することはできません。
これらの観察は、将来 LLM を利用および開発するための貴重な視点を提供します。
コードは https://github.com/tsinghua-fib-lab/CityBench からオープンにアクセスできます。
要約(オリジナル)
Recently, large language models (LLMs) with extensive general knowledge and powerful reasoning abilities have seen rapid development and widespread application. A systematic and reliable evaluation of LLMs or vision-language model (VLMs) is a crucial step in applying and developing them for various fields. There have been some early explorations about the usability of LLMs for limited urban tasks, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for urban research lies in the diversity of urban data, the complexity of application scenarios and the highly dynamic nature of the urban environment. In this paper, we design CityBench, an interactive simulator based evaluation platform, as the first systematic benchmark for evaluating the capabilities of LLMs for diverse tasks in urban research. First, we build CityData to integrate the diverse urban data and CitySimu to simulate fine-grained urban dynamics. Based on CityData and CitySimu, we design 8 representative urban tasks in 2 categories of perception-understanding and decision-making as the CityBench. With extensive results from 30 well-known LLMs and VLMs in 13 cities around the world, we find that advanced LLMs and VLMs can achieve competitive performance in diverse urban tasks requiring commonsense and semantic understanding abilities, e.g., understanding the human dynamics and semantic inference of urban images. Meanwhile, they fail to solve the challenging urban tasks requiring professional knowledge and high-level reasoning abilities, e.g., geospatial prediction and traffic control task. These observations provide valuable perspectives for utilizing and developing LLMs in the future. Codes are openly accessible via https://github.com/tsinghua-fib-lab/CityBench.
arxiv情報
著者 | Jie Feng,Jun Zhang,Tianhui Liu,Xin Zhang,Tianjian Ouyang,Junbo Yan,Yuwei Du,Siqi Guo,Yong Li |
発行日 | 2024-12-23 14:10:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google