SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition

要約

スケルトンベースの動作認識は、スケルトンデータ内の関節の座標と接続性に基づいて人間の動作を分類するもので、さまざまなシナリオで広く利用されています。
グラフ畳み込みネットワーク (GCN) は、グラフとして表現されるスケルトン データに対して提案されていますが、関節の接続性によって制限される限られた受容野に悩まされます。
この制限に対処するために、最近の進歩ではトランスベースの方法が導入されました。
ただし、すべてのフレームのすべてのジョイント間の相関をキャプチャするには、大量のメモリ リソースが必要です。
これを軽減するために、私たちは、さまざまな種類の骨格と時間の関係 (Skate-Type) に基づいて関節とフレームを分割し、その中で骨格と時間の自己注意 (Skate-MSA) を実行する、Skeletal-Temporal Transformer (SkateFormer) と呼ばれる新しいアプローチを提案します。
各パーティション。
私たちは、行動認識のための重要な骨格と時間の関係を合計 4 つの異なるタイプに分類します。
これらのタイプは、(i) 物理的に隣接および離れた関節に基づく 2 つの骨格関係タイプと、(ii) 隣接および離れたフレームに基づく 2 つの時間的関係タイプを組み合わせます。
このパーティション固有の注意戦略を通じて、当社の SkateFormer は、効率的な計算による動作適応的な方法で、動作認識に重要な主要なジョイントとフレームに選択的に焦点を当てることができます。
さまざまなベンチマーク データセットでの広範な実験により、SkateFormer が最近の最先端の方法よりも優れたパフォーマンスを発揮することが検証されています。

要約(オリジナル)

Skeleton-based action recognition, which classifies human actions based on the coordinates of joints and their connectivity within skeleton data, is widely utilized in various scenarios. While Graph Convolutional Networks (GCNs) have been proposed for skeleton data represented as graphs, they suffer from limited receptive fields constrained by joint connectivity. To address this limitation, recent advancements have introduced transformer-based methods. However, capturing correlations between all joints in all frames requires substantial memory resources. To alleviate this, we propose a novel approach called Skeletal-Temporal Transformer (SkateFormer) that partitions joints and frames based on different types of skeletal-temporal relation (Skate-Type) and performs skeletal-temporal self-attention (Skate-MSA) within each partition. We categorize the key skeletal-temporal relations for action recognition into a total of four distinct types. These types combine (i) two skeletal relation types based on physically neighboring and distant joints, and (ii) two temporal relation types based on neighboring and distant frames. Through this partition-specific attention strategy, our SkateFormer can selectively focus on key joints and frames crucial for action recognition in an action-adaptive manner with efficient computation. Extensive experiments on various benchmark datasets validate that our SkateFormer outperforms recent state-of-the-art methods.

arxiv情報

著者 Jeonghyeok Do,Munchurl Kim
発行日 2024-03-14 15:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク