Triple-stream Deep Metric Learning of Great Ape Behavioural Actions

要約

我々は、類人猿の行動認識のための最初のメトリック学習システムを提案する。提案するトリプルストリーム埋め込みアーキテクチャは、野生で直接撮影されたカメラトラップ動画で動作し、明示的なDensePose-Cチンパンジーの身体部分セグメンテーションストリームを利用することで、従来のRGB外観とオプティカルフローストリームを効果的に補完することを実証している。我々は、異なる特徴量融合技術とロングテール認識アプローチによるシステムのバリエーションを評価しました。その結果、9つの行動パターンを持つ180,000フレームを含むPanAf-500データセットにおいて、トップ1精度で約12%の性能向上を達成したことが示された。さらに、我々の発見を定性的に分析し、ロングテール認識技術でメトリック学習システムを補強し、この分野で重要なクラスごとの平均精度が、このデータセットの文献と比較して〜23%改善されることを示す。最後に、我々の埋め込み空間はメトリックとして構築されているので、我々は、新たな幾何学とトポロジーを明らかにする類人猿の行動空間の最初のデータ駆動型視覚化を提供します。この研究が、絶滅の危機に瀕した類人猿のために、コンピュータビジョンのこの重要な応用分野へのさらなる関心を呼び起こすことを期待しています。

要約(オリジナル)

We propose the first metric learning system for the recognition of great ape behavioural actions. Our proposed triple stream embedding architecture works on camera trap videos taken directly in the wild and demonstrates that the utilisation of an explicit DensePose-C chimpanzee body part segmentation stream effectively complements traditional RGB appearance and optical flow streams. We evaluate system variants with different feature fusion techniques and long-tail recognition approaches. Results and ablations show performance improvements of ~12% in top-1 accuracy over previous results achieved on the PanAf-500 dataset containing 180,000 manually annotated frames across nine behavioural actions. Furthermore, we provide a qualitative analysis of our findings and augment the metric learning system with long-tail recognition techniques showing that average per class accuracy — critical in the domain — can be improved by ~23% compared to the literature on that dataset. Finally, since our embedding spaces are constructed as metric, we provide first data-driven visualisations of the great ape behavioural action spaces revealing emerging geometry and topology. We hope that the work sparks further interest in this vital application area of computer vision for the benefit of endangered great apes.

arxiv情報

著者 Otto Brookes,Majid Mirmehdi,Hjalmar Kühl,Tilo Burghardt
発行日 2023-01-06 18:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク