要約
このペーパーでは、協調マッピングの効率を高めるためのマッピング アシスタントとして生成 AI を活用するという概念を検討します。
ボランティアによる地理情報 (VGI) と大規模言語モデル (LLM) の複数のソースを組み合わせた実験の結果を紹介します。
3 人のアナリストが、フロリダ州マイアミの小さなテストエリアの道路に沿って撮影された、クラウドソーシングされた Mapillary のストリートレベルの写真の内容を説明しました。
GPT-3.5-turbo は、OpenStreetMap (OSM) の各道路に最適なタグ付けを提案するように指示されました。
この研究では、人間のアナリストに加えて街頭レベルの写真の人工アナリストとして、最先端のマルチモーダル事前トレーニング方法である BLIP-2 の利用も検討しています。
この結果は、基盤となる AI モデルを変更することなく、マッピング提案の精度を効果的に高める 2 つの方法を示しています。(1) ソース写真のより詳細な説明を提供すること、(2) プロンプト エンジニアリングと追加のコンテキスト (例: 位置や物体に沿って検出されたものなど) を組み合わせることです。
道)。
最初のアプローチでは提案の精度が最大 29% 向上し、2 番目のアプローチでは最大 20% 向上します。
要約(オリジナル)
This paper explores the concept of leveraging generative AI as a mapping assistant for enhancing the efficiency of collaborative mapping. We present results of an experiment that combines multiple sources of volunteered geographic information (VGI) and large language models (LLMs). Three analysts described the content of crowdsourced Mapillary street-level photographs taken along roads in a small test area in Miami, Florida. GPT-3.5-turbo was instructed to suggest the most appropriate tagging for each road in OpenStreetMap (OSM). The study also explores the utilization of BLIP-2, a state-of-the-art multimodal pre-training method as an artificial analyst of street-level photographs in addition to human analysts. Results demonstrate two ways to effectively increase the accuracy of mapping suggestions without modifying the underlying AI models: by (1) providing a more detailed description of source photographs, and (2) combining prompt engineering with additional context (e.g. location and objects detected along a road). The first approach increases the suggestion accuracy by up to 29%, and the second one by up to 20%.
arxiv情報
著者 | Levente Juhász,Peter Mooney,Hartwig H. Hochmair,Boyuan Guan |
発行日 | 2024-03-15 16:15:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google