要約
道路交通事故は毎年何百万人もの死者を出しており、特に低・中所得国(LMIC)では経済に重大な影響を与えています。
この論文では、従来の畳み込みニューラル ネットワーク (CNN) の制限を克服する、交通安全評価にビジョン言語モデル (VLM) を使用するアプローチを紹介します。
実世界のデータセットを使用した新しいタスク、V-RoAst (道路評価のための視覚的質問応答) を導入します。
当社のアプローチは、迅速なエンジニアリングを最適化し、Gemini-1.5-フラッシュや GPT-4o-mini などの高度な VLM を評価します。
このモデルは、道路評価の属性を効果的に検査します。
Mapillary のクラウドソーシング画像を使用する当社のスケーラブルなソリューションは、交通安全レベルを大きな影響力をもって推定します。
さらに、このアプローチはトレーニング データを必要としないため、リソースが不足している地元の関係者向けに設計されています。
これは、世界的な交通安全評価のための費用対効果の高い自動化された方法を提供し、人命を救い、経済的負担を軽減する可能性があります。
要約(オリジナル)
Road traffic crashes cause millions of deaths annually and have a significant economic impact, particularly in low- and middle-income countries (LMICs). This paper presents an approach using Vision Language Models (VLMs) for road safety assessment, overcoming the limitations of traditional Convolutional Neural Networks (CNNs). We introduce a new task ,V-RoAst (Visual question answering for Road Assessment), with a real-world dataset. Our approach optimizes prompt engineering and evaluates advanced VLMs, including Gemini-1.5-flash and GPT-4o-mini. The models effectively examine attributes for road assessment. Using crowdsourced imagery from Mapillary, our scalable solution influentially estimates road safety levels. In addition, this approach is designed for local stakeholders who lack resources, as it does not require training data. It offers a cost-effective and automated methods for global road safety assessments, potentially saving lives and reducing economic burdens.
arxiv情報
著者 | Natchapon Jongwiriyanurak,Zichao Zeng,June Moh Goo,Xinglei Wang,Ilya Ilyankou,Kerkritt Srirrongvikrai,Meihui Wang,James Haworth |
発行日 | 2024-08-20 14:03:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google