要約
本研究では、衛星映像における車両検出のためのディープラーニングアプローチを提示する。車両検出は、車両の細さ(4-10ピクセル)と背景との類似性のために、単一のEO衛星画像ではおそらく不可能である。その代わりに、我々は、車両の動きの時間的一貫性によって空間情報の欠如を克服する衛星映像を考慮する。そこで、プーリング層を無視し、リーキーReLUを用いたコンパクトな$3 \times 3$畳み込みニューラルネットワークの新しい時空間モデルを提案する。また,最終的なセグメンテーションには,非最大圧縮(NMS)を含む出力ヒートマップの再定式化を用いている.2つの新しい注釈付き衛星ビデオに対する実証結果は、車両検出に対するこのアプローチの適用性を再確認するものである。さらに重要なことは、WAMIデータで事前学習を行い、新しい映像では少数の注釈付きビデオフレームで微調整を行うことで十分であることを示したことである。我々の実験では、わずか5枚の注釈付き画像から、Las Vegasの映像よりも複雑な交通パターンを持つ新しい映像の$F_1$スコアを0.81とした。Las Vegasでの最良の結果は$F_1$スコア0.87であり,提案手法はこのベンチマークにおいて主要な手法である.
要約(オリジナル)
This work presents a deep learning approach for vehicle detection in satellite video. Vehicle detection is perhaps impossible in single EO satellite images due to the tininess of vehicles (4-10 pixel) and their similarity to the background. Instead, we consider satellite video which overcomes the lack of spatial information by temporal consistency of vehicle movement. A new spatiotemporal model of a compact $3 \times 3$ convolutional, neural network is proposed which neglects pooling layers and uses leaky ReLUs. Then we use a reformulation of the output heatmap including Non-Maximum-Suppression (NMS) for the final segmentation. Empirical results on two new annotated satellite videos reconfirm the applicability of this approach for vehicle detection. They more importantly indicate that pre-training on WAMI data and then fine-tuning on few annotated video frames for a new video is sufficient. In our experiment only five annotated images yield a $F_1$ score of 0.81 on a new video showing more complex traffic patterns than the Las Vegas video. Our best result on Las Vegas is a $F_1$ score of 0.87 which makes the proposed approach a leading method for this benchmark.
arxiv情報
著者 | Roman Pflugfelder,Axel Weissenfeld,Julian Wagner |
発行日 | 2022-06-07 16:49:05+00:00 |
arxivサイト | arxiv_id(pdf) |