要約
行動の定量化は、神経科学、獣医学、動物保護活動に至るまでの応用において重要です。
行動分析の一般的な重要なステップは、まず姿勢推定として知られる、動物の関連するキーポイントを抽出することです。
ただし、現在、信頼性の高いポーズの推論には、領域の知識と教師付きモデルを構築するための手動のラベル付け作業が必要です。
私たちは、総称して SuperAnimal と呼ばれる新しい方法を可能にし、追加の人間によるラベルを付けずに 45 種を超える種で使用できる統一基盤モデルを開発できる一連の技術革新を紹介します。
具体的には、ラベルの異なるデータセット間でキーポイント空間を統一し (一般化されたデータ コンバーターを介して)、不均衡な入力を与えられてもキーポイントを壊滅的に忘れないような方法でこれらの多様なデータセットをトレーニングする方法 (キーポイント グラデーション マスキングを介して) を導入します。
そして記憶再生アプローチ)。
これらのモデルは、6 つのポーズ ベンチマークにわたって優れたパフォーマンスを示します。
次に、エンドユーザーの使いやすさを最大限に高めるために、異なるラベルが付けられたデータに基づいてモデルを微調整する方法を示し、パフォーマンスを向上させ、フレーム間のジッターを低減する教師なしビデオ適応ツールを提供します。
モデルが微調整されている場合、SuperAnimal モデルは以前の転移学習ベースのアプローチよりもデータ効率が 10 ~ 100$\倍$ 高いことがわかります。
マウスの行動分類と馬の歩行分析におけるモデルの有用性を説明します。
まとめると、これは動物の姿勢推定のためのデータ効率の高いソリューションを示します。
要約(オリジナル)
Quantification of behavior is critical in applications ranging from neuroscience, veterinary medicine and animal conservation efforts. A common key step for behavioral analysis is first extracting relevant keypoints on animals, known as pose estimation. However, reliable inference of poses currently requires domain knowledge and manual labeling effort to build supervised models. We present a series of technical innovations that enable a new method, collectively called SuperAnimal, to develop unified foundation models that can be used on over 45 species, without additional human labels. Concretely, we introduce a method to unify the keypoint space across differently labeled datasets (via our generalized data converter) and for training these diverse datasets in a manner such that they don’t catastrophically forget keypoints given the unbalanced inputs (via our keypoint gradient masking and memory replay approaches). These models show excellent performance across six pose benchmarks. Then, to ensure maximal usability for end-users, we demonstrate how to fine-tune the models on differently labeled data and provide tooling for unsupervised video adaptation to boost performance and decrease jitter across frames. If the models are fine-tuned, we show SuperAnimal models are 10-100$\times$ more data efficient than prior transfer-learning-based approaches. We illustrate the utility of our models in behavioral classification in mice and gait analysis in horses. Collectively, this presents a data-efficient solution for animal pose estimation.
arxiv情報
著者 | Shaokai Ye,Anastasiia Filippova,Jessy Lauer,Steffen Schneider,Maxime Vidal,Tian Qiu,Alexander Mathis,Mackenzie Weygandt Mathis |
発行日 | 2023-12-31 01:17:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google