要約
私たちは、多様な動物種や人間にわたるポーズの同時追跡と推定のために、変圧器ベースの識別モデル予測を利用した新しいフレームワークであるステップを紹介します。
私たちは、人間の脳が空間的連続性を搾取し、形態と動きの処理のための脳領域の専門化にもかかわらず、同時のローカリゼーションとポーズ推定を実行するという事実に触発されています。
従来の識別モデルでは、通常、モデルの重みを決定するための事前定義されたターゲット状態が必要です。これは、ガウスマップソフト予測(GMSP)およびオフセットマップ回帰アダプター(OMRA)モジュールを介して対処する課題です。
これらのモジュールは、キーポイントターゲット状態の必要性を入力として削除し、プロセスを合理化します。
私たちの方法は、特定のビデオシーケンスの初期フレームでの事前に訓練された検出器または手動の初期化を通じて初期化された既知のターゲット状態から始まります。
次に、ターゲットをシームレスに追跡し、その後のフレームの出力として解剖学的重要性のキーポイントを推定します。
一般的なトップダウンポーズ推定方法とは異なり、私たちのアプローチは、その追跡能力のためにフレームごとのターゲット検出に依存していません。
これにより、推論効率と潜在的なアプリケーションの大幅な進歩が促進されます。
多様な種を含むデータセットでアプローチをトレーニングおよび検証します。
我々の実験は、既存の方法と比較して優れた結果を示し、アクション認識や行動分析を含むがこれらに限定されないさまざまなアプリケーションへのドアを開きます。
要約(オリジナル)
We introduce STEP, a novel framework utilizing Transformer-based discriminative model prediction for simultaneous tracking and estimation of pose across diverse animal species and humans. We are inspired by the fact that the human brain exploits spatiotemporal continuity and performs concurrent localization and pose estimation despite the specialization of brain areas for form and motion processing. Traditional discriminative models typically require predefined target states for determining model weights, a challenge we address through Gaussian Map Soft Prediction (GMSP) and Offset Map Regression Adapter (OMRA) Modules. These modules remove the necessity of keypoint target states as input, streamlining the process. Our method starts with a known target state initialized through a pre-trained detector or manual initialization in the initial frame of a given video sequence. It then seamlessly tracks the target and estimates keypoints of anatomical importance as output for subsequent frames. Unlike prevalent top-down pose estimation methods, our approach doesn’t rely on per-frame target detections due to its tracking capability. This facilitates a significant advancement in inference efficiency and potential applications. We train and validate our approach on datasets encompassing diverse species. Our experiments demonstrate superior results compared to existing methods, opening doors to various applications, including but not limited to action recognition and behavioral analysis.
arxiv情報
著者 | Shashikant Verma,Harish Katti,Soumyaratna Debnath,Yamuna Swamy,Shanmuganathan Raman |
発行日 | 2025-03-17 16:22:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google