BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos

要約

ドローンを使用して自然環境で複数の個体を同時に追跡することは、霊長類の集団行動をより深く理解するための強力なアプローチです。
これまでの研究では、ビデオ データから霊長類の行動の分類を自動化できることが実証されていますが、これらの研究は飼育下または地上のカメラから行われていました。
集団の行動と集団の自己組織化を理解するには、生態学的決定が行われる自然環境との関連で行動を観察できる規模で集団全体を観察する必要があります。
この研究では、ヒヒの検出、追跡、行動認識のためのドローンビデオからの新しいデータセットを紹介します。
ヒヒ検出データセットは、ドローン ビデオ内のすべてのヒヒに境界ボックスを手動で注釈を付けることによって作成されました。
その後、タイリング手法を適用して、元の解像度 5.3K の画像からさまざまなスケールの画像のピラミッドを作成し、ヒヒの検出に使用される約 30K の画像が得られました。
追跡データセットは検出データセットから派生し、ビデオ全体ですべての境界ボックスに同じ ID が割り当てられます。
このプロセスにより、30 分間の非常に密度の高い追跡データが生成されました。
行動認識データセットは、トラックをミニシーン、つまり各動物を中心としたビデオのサブ領域に変換することによって生成されました。
各ミニシーンには 12 の異なる動作タイプが手動で注釈付けされ、20 時間以上のデータが得られました。
ベンチマーク結果は、YOLOv8-X 検出モデルの平均平均精度 (mAP) が 92.62\%、BotSort 追跡アルゴリズムの複数オブジェクト追跡精度 (MOTA) が 63.81\%、およびマイクロ トップ 1 精度が 63.97\% であることを示しています。
X3D 行動認識モデル。
ディープラーニングを使用してドローン映像から野生動物の行動を分類すると、グループ全体の集団行動に対する非侵襲的な洞察が容易になります。

要約(オリジナル)

Using drones to track multiple individuals simultaneously in their natural environment is a powerful approach for better understanding group primate behavior. Previous studies have demonstrated that it is possible to automate the classification of primate behavior from video data, but these studies have been carried out in captivity or from ground-based cameras. To understand group behavior and the self-organization of a collective, the whole troop needs to be seen at a scale where behavior can be seen in relation to the natural environment in which ecological decisions are made. This study presents a novel dataset from drone videos for baboon detection, tracking, and behavior recognition. The baboon detection dataset was created by manually annotating all baboons in drone videos with bounding boxes. A tiling method was subsequently applied to create a pyramid of images at various scales from the original 5.3K resolution images, resulting in approximately 30K images used for baboon detection. The tracking dataset is derived from the detection dataset, where all bounding boxes are assigned the same ID throughout the video. This process resulted in half an hour of very dense tracking data. The behavior recognition dataset was generated by converting tracks into mini-scenes, a video subregion centered on each animal; each mini-scene was manually annotated with 12 distinct behavior types, resulting in over 20 hours of data. Benchmark results show mean average precision (mAP) of 92.62\% for the YOLOv8-X detection model, multiple object tracking precision (MOTA) of 63.81\% for the BotSort tracking algorithm, and micro top-1 accuracy of 63.97\% for the X3D behavior recognition model. Using deep learning to classify wildlife behavior from drone footage facilitates non-invasive insight into the collective behavior of an entire group.

arxiv情報

著者 Isla Duporge,Maksim Kholiavchenko,Roi Harel,Scott Wolf,Dan Rubenstein,Meg Crofoot,Tanya Berger-Wolf,Stephen Lee,Julie Barreau,Jenna Kline,Michelle Ramirez,Chuck Stewart
発行日 2024-05-29 14:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク