AlphaChimp: Tracking and Behavior Recognition of Chimpanzees

要約

ヒト以外の霊長類の行動を理解することは、動物福祉を改善し、社会的行動をモデル化し、人間特有の行動と共通の行動の両方について洞察を得るために非常に重要です。
コンピュータービジョンの最近の進歩にもかかわらず、霊長類の行動の自動分析は、霊長類の社会的相互作用の複雑さと特殊なアルゴリズムの欠如により依然として困難です。
既存の手法は、霊長類の社会力学に特徴的な微妙な行動や頻繁なオクルージョンに苦戦することがよくあります。
この研究は、ビデオ映像内のチンパンジーの行動を自動検出、追跡、認識するための効果的な方法を開発することを目的としています。
今回我々は、ビデオからチンパンジーの位置検出と行動カテゴリの推定を同時に行うエンドツーエンドのアプローチである我々の提案手法である AlphaChimp が、行動認識において既存の手法を大幅に上回る性能を示すことを示す。
AlphaChimp は、最先端の手法と比較して約 10% 高い追跡精度と 20% 高い行動認識の向上を実現しており、特に社会的行動の認識に優れています。
この優れたパフォーマンスは、時間的特徴の融合とトランスフォーマーベースの自己注意メカニズムを統合する AlphaChimp の革新的なアーキテクチャに由来しており、チンパンジー間の複雑な社会的相互作用のより効果的な捕捉と解釈を可能にします。
私たちのアプローチはコンピュータービジョンと霊長類学の間のギャップを埋め、技術的能力を強化し、霊長類のコミュニケーションと社会性についての理解を深めます。
私たちはコードとモデルを公開し、これが動物の社会動態における将来の研究を促進することを願っています。
この研究は動物行動学、認知科学、人工知能に貢献し、社会的知性に関する新たな視点を提供します。

要約(オリジナル)

Understanding non-human primate behavior is crucial for improving animal welfare, modeling social behavior, and gaining insights into both distinctly human and shared behaviors. Despite recent advances in computer vision, automated analysis of primate behavior remains challenging due to the complexity of their social interactions and the lack of specialized algorithms. Existing methods often struggle with the nuanced behaviors and frequent occlusions characteristic of primate social dynamics. This study aims to develop an effective method for automated detection, tracking, and recognition of chimpanzee behaviors in video footage. Here we show that our proposed method, AlphaChimp, an end-to-end approach that simultaneously detects chimpanzee positions and estimates behavior categories from videos, significantly outperforms existing methods in behavior recognition. AlphaChimp achieves approximately 10% higher tracking accuracy and a 20% improvement in behavior recognition compared to state-of-the-art methods, particularly excelling in the recognition of social behaviors. This superior performance stems from AlphaChimp’s innovative architecture, which integrates temporal feature fusion with a Transformer-based self-attention mechanism, enabling more effective capture and interpretation of complex social interactions among chimpanzees. Our approach bridges the gap between computer vision and primatology, enhancing technical capabilities and deepening our understanding of primate communication and sociality. We release our code and models and hope this will facilitate future research in animal social dynamics. This work contributes to ethology, cognitive science, and artificial intelligence, offering new perspectives on social intelligence.

arxiv情報

著者 Xiaoxuan Ma,Yutang Lin,Yuan Xu,Stephan P. Kaufhold,Jack Terwilliger,Andres Meza,Yixin Zhu,Federico Rossano,Yizhou Wang
発行日 2024-10-22 16:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク