要約
地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利用でき、さまざまな都市オブジェクトの場所とメタデータを含む詳細な地図も利用できます。
それらは、都市の物体に関する潜在的に豊富な情報源を提供しますが、物体検出のための手動の注釈は、費用がかかり、面倒で困難です。
このようなマルチメディア ソースを利用して、手作業によるラベル付けに代わる安価な手段として、道路レベルの画像に自動的に注釈を付けることができるでしょうか?
PanorAMS フレームワークを使用して、都市のコンテキスト情報に基づいてパノラマ画像の境界ボックスの注釈を自動的に生成する方法を導入します。
この方法に従って、高速かつ自動的な方法で、オープン データ ソースのみから都市データセットの大規模な、しかしノイズの多い注釈を取得します。
データセットはアムステルダム市をカバーし、771,299 のパノラマ画像に存在する 22 のオブジェクト カテゴリの 1,400 万を超えるノイズのある境界ボックス アノテーションが含まれています。
多くのオブジェクトについて、建物の価値、機能、平均表面積などの地理空間メタデータから取得される、さらに詳細な情報が利用可能です。
このような情報は、画像のみに基づいて手動でラベル付けすることによって取得することは、不可能ではないにしても困難でした。
詳細な評価のために、パノラマ画像のバウンディング ボックス アノテーション用の効率的なクラウドソーシング プロトコルを導入します。これを展開して、7,348 枚の画像のサブセットである PanorAMS クリーン データセットに対して 147,075 のグラウンド トゥルース オブジェクト アノテーションを取得します。
PanorAMS ノイズの多いデータセットについては、ノイズの広範な分析と、さまざまな種類のノイズが画像分類とオブジェクト検出のパフォーマンスにどのように影響するかを提供します。
このホワイト ペーパーで紹介する PanorAMS-noisy と PanorAMS-clean の両方のデータセット、ベンチマーク、およびツールを公開しています。
要約(オリジナル)
Large collections of geo-referenced panoramic images are freely available for cities across the globe, as well as detailed maps with location and meta-data on a great variety of urban objects. They provide a potentially rich source of information on urban objects, but manual annotation for object detection is costly, laborious and difficult. Can we utilize such multimedia sources to automatically annotate street level images as an inexpensive alternative to manual labeling? With the PanorAMS framework we introduce a method to automatically generate bounding box annotations for panoramic images based on urban context information. Following this method, we acquire large-scale, albeit noisy, annotations for an urban dataset solely from open data sources in a fast and automatic manner. The dataset covers the City of Amsterdam and includes over 14 million noisy bounding box annotations of 22 object categories present in 771,299 panoramic images. For many objects further fine-grained information is available, obtained from geospatial meta-data, such as building value, function and average surface area. Such information would have been difficult, if not impossible, to acquire via manual labeling based on the image alone. For detailed evaluation, we introduce an efficient crowdsourcing protocol for bounding box annotations in panoramic images, which we deploy to acquire 147,075 ground-truth object annotations for a subset of 7,348 images, the PanorAMS-clean dataset. For our PanorAMS-noisy dataset, we provide an extensive analysis of the noise and how different types of noise affect image classification and object detection performance. We make both datasets, PanorAMS-noisy and PanorAMS-clean, benchmarks and tools presented in this paper openly available.
arxiv情報
著者 | Inske Groenen,Stevan Rudinac,Marcel Worring |
発行日 | 2022-08-30 14:25:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google