POLO — Point-based, multi-class animal detection

要約

ドローン画像と物体検出技術に基づく自動化された野生動物調査は、保全生物学において強力で人気が高まっているツールです。
ほとんどの検出器は、注釈付きの境界ボックスを使用したトレーニング画像を必要としますが、作成には時間がかかり、コストがかかり、必ずしも明確であるとは限りません。
この実践に伴うアノテーションの負荷を軽減するために、ポイント ラベルのみでトレーニングできるマルチクラスのオブジェクト検出モデルである POLO を開発しました。
POLO は、予測プロセス、トレーニング損失、後処理の変更など、YOLOv8 アーキテクチャに対するシンプルかつ効果的な変更に基づいています。
1 つの画像に最大数千羽の鳥が含まれる水鳥のドローン録画で POLO をテストし、通常の YOLOv8 と比較します。
私たちの実験では、同じアノテーション コストで、POLO が航空画像内の動物の数を数える精度が向上していることがわかりました。

要約(オリジナル)

Automated wildlife surveys based on drone imagery and object detection technology are a powerful and increasingly popular tool in conservation biology. Most detectors require training images with annotated bounding boxes, which are tedious, expensive, and not always unambiguous to create. To reduce the annotation load associated with this practice, we develop POLO, a multi-class object detection model that can be trained entirely on point labels. POLO is based on simple, yet effective modifications to the YOLOv8 architecture, including alterations to the prediction process, training losses, and post-processing. We test POLO on drone recordings of waterfowl containing up to multiple thousands of individual birds in one image and compare it to a regular YOLOv8. Our experiments show that at the same annotation cost, POLO achieves improved accuracy in counting animals in aerial imagery.

arxiv情報

著者 Giacomo May,Emanuele Dalsasso,Benjamin Kellenberger,Devis Tuia
発行日 2024-10-15 16:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク