SkeleTR: Towrads Skeleton-based Action Recognition in the Wild

要約

我々は、スケルトンベースのアクション認識のための新しいフレームワークである SkeleTR を紹介します。
主に制御された環境に焦点を当てたこれまでの研究とは対照的に、私たちは、通常、さまざまな数の人々と人々の間のさまざまな形の相互作用を伴う、より一般的なシナリオを対象としています。
SkeleTR は 2 段階のパラダイムで動作します。
まず、グラフ畳み込みを使用して各スケルトン シーケンスの人物内のスケルトン ダイナミクスをモデル化し、次にスタックされた Transformer エンコーダーを使用して、一般的なシナリオでのアクション認識に重要な人物のインタラクションをキャプチャします。
不正確なスケルトンの関連付けによる悪影響を軽減するために、SkeleTR は比較的短いスケルトン シーケンスを入力として受け取り、シーケンスの数を増やします。
統合ソリューションとして、SkeleTR は、ビデオ レベルのアクション分類、インスタンス レベルのアクション検出、グループ レベルのアクティビティ認識など、複数のスケルトン ベースのアクション タスクに直接適用できます。
また、さまざまなアクション タスクやデータセットにわたる転移学習や共同トレーニングも可能になり、パフォーマンスの向上につながります。
さまざまなスケルトンベースの動作認識ベンチマークで評価すると、SkeleTR は最先端のパフォーマンスを達成します。

要約(オリジナル)

We present SkeleTR, a new framework for skeleton-based action recognition. In contrast to prior work, which focuses mainly on controlled environments, we target more general scenarios that typically involve a variable number of people and various forms of interaction between people. SkeleTR works with a two-stage paradigm. It first models the intra-person skeleton dynamics for each skeleton sequence with graph convolutions, and then uses stacked Transformer encoders to capture person interactions that are important for action recognition in general scenarios. To mitigate the negative impact of inaccurate skeleton associations, SkeleTR takes relative short skeleton sequences as input and increases the number of sequences. As a unified solution, SkeleTR can be directly applied to multiple skeleton-based action tasks, including video-level action classification, instance-level action detection, and group-level activity recognition. It also enables transfer learning and joint training across different action tasks and datasets, which result in performance improvement. When evaluated on various skeleton-based action recognition benchmarks, SkeleTR achieves the state-of-the-art performance.

arxiv情報

著者 Haodong Duan,Mingze Xu,Bing Shuai,Davide Modolo,Zhuowen Tu,Joseph Tighe,Alessandro Bergamo
発行日 2023-09-20 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク