Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images

要約

都市の安全認識を測定することは重要かつ複雑なタスクであり、従来は人的資源に大きく依存していました。
このプロセスには、大規模な現地調査、手動によるデータ収集、主観的な評価が含まれることが多く、時間と費用がかかり、場合によっては一貫性がなくなる可能性があります。
ストリート ビュー画像 (SVI) と深層学習手法は、大規模な都市の安全性の検出を実現する方法を提供します。
ただし、この目標を達成するには、多くの場合、安全性ランキング モデルをトレーニングするために広範な人間による注釈が必要であり、都市間のアーキテクチャの違いがこれらのモデルの移植性を妨げています。
したがって、安全性評価を実施するための完全に自動化された方法が不可欠です。
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、強力な推論機能と分析機能が実証されました。
GPT-4 などの最先端のモデルは、多くのタスクで驚くべきパフォーマンスを示しています。
私たちはこれらのモデルを人間の注釈付きアンカー セットでの都市の安全性ランキングに採用し、MLLM の結果が人間の認識と密接に一致していることを検証しました。
さらに、都市全体の安全性指標を迅速に評価するために、事前にトレーニングされた対照言語画像事前トレーニング (CLIP) 機能と K-最近傍 (K-NN) 検索に基づく方法を提案しました。
実験結果は、私たちの方法が既存のトレーニングに必要な深層学習アプローチを上回り、効率的かつ正確な都市の安全性評価を達成することを示しています。
提案されている都市の安全認識評価の自動化は、都市環境の改善を目指す都市計画者、政策立案者、研究者にとって貴重なツールです。

要約(オリジナル)

Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments.

arxiv情報

著者 Jiaxin Zhang,Yunqin Li,Tomohiro Fukuda,Bowen Wang
発行日 2024-08-05 12:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク