A Gated Attention Transformer for Multi-Person Pose Tracking

要約

複数人のポーズの追跡は、多くのアプリケーションにとって重要な要素であり、ビデオ内のすべての人の人間のポーズを推定し、それらを経時的に追跡する必要があります。
フレーム間でのポーズの関連付けは、モーション ブラー、混雑したシーン、オクルージョンなどにより、特にオンライン トラッキング方法において未解決の研究問題として残されています。
アソシエーションの課題に取り組むために、私たちはゲートされた注意トランスフォーマーを提案します。
私たちのモデルの中核となるのは、アテンション レイヤーの時間的な姿勢の類似性に基づいて、外観の埋め込みと埋め込みの影響を自動的に適応させるゲート メカニズムです。
オクルージョンされた人物を再識別するために、最初の埋め込みを提供し、フレーム間で目に見える関節の数が異なる場合でも人物を照合できる姿勢条件付き再識別ネットワークを組み込みます。
さらに、ポーズとトラックの関連付けと重複の削除のためのゲートされた注意に基づくマッチング レイヤーを提案します。
PoseTrack 2018 と PoseTrack21 でのアプローチを評価します。

要約(オリジナル)

Multi-person pose tracking is an important element for many applications and requires to estimate the human poses of all persons in a video and to track them over time. The association of poses across frames remains an open research problem, in particular for online tracking methods, due to motion blur, crowded scenes and occlusions. To tackle the association challenge, we propose a Gated Attention Transformer. The core aspect of our model is the gating mechanism that automatically adapts the impact of appearance embeddings and embeddings based on temporal pose similarity in the attention layers. In order to re-identify persons that have been occluded, we incorporate a pose-conditioned re-identification network that provides initial embeddings and allows to match persons even if the number of visible joints differ between frames. We further propose a matching layer based on gated attention for pose-to-track association and duplicate removal. We evaluate our approach on PoseTrack 2018 and PoseTrack21.

arxiv情報

著者 Andreas Doering,Juergen Gall
発行日 2023-08-21 17:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク