要約
カメラトラップビデオ映像のコンピュータービジョン分析は、キャプチャされた行動が人口の健康の変化の最も早い指標のいくつかを提供するため、野生生物の保全に不可欠です。
最近、いくつかの衝撃的な動物行動データセットと方法が導入され、それらの使用を促進しています。
ただし、行動相関の背景情報の役割と、分散除外一般化に対するその重要な影響は未開拓のままです。
これに応じて、350を超える個別のカメラの場所で記録された20時間の野生のチンパンジーの動作を特徴とするPanaf-FGBGデータセットを提示します。
ユニークなことに、すべてのビデオを、同じカメラの場所から対応するバックグラウンドビデオ(チンパンジーなし)とチンパンジー(フォアグラウンドビデオと呼ばれる)と組み合わせます。
データセットの2つのビューを示します。1つはカメラの位置が重複し、もう1つは分離場所のあるものです。
このセットアップにより、初めて、分散療法と分散療法条件の直接的な評価、および行動認識モデルに対する背景の影響を定量化することができます。
すべてのクリップには、一意のカメラIDや詳細なテキストシーンの説明など、豊富な行動注釈とメタデータが付属しています。
さらに、いくつかのベースラインを確立し、畳み込み型モデルでは、分散型のパフォーマンスを +5.42%マップ、 +3.75%マップで +5.42%マップで高める非常に効果的な潜在スペース正規化手法を提示します。
最後に、バックグラウンド期間(つまり、前景ビデオ内のバックグラウンドフレームのカウント)を含む、分散外の行動認識における背景の役割に関する詳細な分析を提供します。
要約(オリジナル)
Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).
arxiv情報
著者 | Otto Brookes,Maksim Kukushkin,Majid Mirmehdi,Colleen Stephens,Paula Dieguez,Thurston C. Hicks,Sorrel Jones,Kevin Lee,Maureen S. McCarthy,Amelia Meier,Emmanuelle Normand,Erin G. Wessling,Roman M. Wittig,Kevin Langergraber,Klaus Zuberbühler,Lukas Boesch,Thomas Schmid,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt |
発行日 | 2025-03-19 15:11:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google