The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

要約

捕獲された行動は個体群の健康状態の変化を示す最も早い指標となるため、カメラトラップ映像のコンピュータビジョン解析は野生動物の保全に不可欠である。しかし、行動に関連する背景情報の役割や、分布外汎化に及ぼすその重要な影響については、まだ未解明である。そこで、我々はPanAf-FGBGデータセットを紹介する。このデータセットは、350以上の個々のカメラ位置で記録された、20時間に及ぶ野生のチンパンジーの行動を収録している。ユニークなのは、チンパンジーが登場するすべての映像(前景映像と呼ばれる)と、同じカメラ位置から撮影された対応する背景映像(チンパンジーは登場しない)をペアにしていることである。カメラ位置が重複しているものと、位置が不一致のものである。この設定により、初めて分布内と分布外の条件を直接評価することができ、行動認識モデルに対する背景の影響を定量化することができる。すべてのクリップには、一意のカメラIDや詳細なテキストによるシーン説明を含む、豊富な行動注釈とメタデータが付属しています。さらに、いくつかのベースラインを設定し、非常に効果的な潜在空間正規化技術を提示することで、分布外性能を畳み込みモデルで+5.42% mAP、トランスフォーマベースモデルで+3.75% mAP向上させる。最後に、背景の持続時間(すなわち、前景映像内の背景フレーム数)の未解明の影響を含む、分布外行動認識における背景の役割に関する詳細な分析を提供する。

要約(オリジナル)

Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).

arxiv情報

著者 Otto Brookes,Maksim Kukushkin,Majid Mirmehdi,Colleen Stephens,Paula Dieguez,Thurston C. Hicks,Sorrel Jones,Kevin Lee,Maureen S. McCarthy,Amelia Meier,Emmanuelle Normand,Erin G. Wessling,Roman M. Wittig,Kevin Langergraber,Klaus Zuberbühler,Lukas Boesch,Thomas Schmid,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt
発行日 2025-03-03 10:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク