要約
最近、トランスフォーマーは、スケルトン シーケンスからの長期依存関係をモデル化する大きな可能性を実証し、スケルトン アクション認識においてますます注目を集めています。
しかし、既存のトランスフォーマーベースのアプローチは、時空間特徴を捕捉するための単純な注意メカニズムに大きく依存しており、同様の動きパターンを示す識別表現を学習するには不十分です。
この課題に対処するために、微妙な識別動作による類似の骨格動作を認識するために特別に設計された、周波数認識混合トランスフォーマー (FreqMixFormer) を導入します。
まず、関節特徴を周波数アテンションマップに埋め込むことでスケルトン周波数表現を解きほぐす周波数アウェアアテンションモジュールを導入し、周波数係数に基づいて弁別動作を区別することを目的としています。
続いて、混合変圧器アーキテクチャを開発して、空間特徴と周波数特徴を組み込んで、包括的な周波数空間パターンをモデル化します。
さらに、フレーム間の大域的な相関を抽出するための時間変換器が提案されています。
広範な実験により、FreqMiXFormer は、NTU RGB+D、NTU RGB+D 120、NW-UCLA データセットを含む 3 つの一般的なスケルトン アクション認識データセットで SOTA よりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Recently, transformers have demonstrated great potential for modeling long-term dependencies from skeleton sequences and thereby gained ever-increasing attention in skeleton action recognition. However, the existing transformer-based approaches heavily rely on the naive attention mechanism for capturing the spatiotemporal features, which falls short in learning discriminative representations that exhibit similar motion patterns. To address this challenge, we introduce the Frequency-aware Mixed Transformer (FreqMixFormer), specifically designed for recognizing similar skeletal actions with subtle discriminative motions. First, we introduce a frequency-aware attention module to unweave skeleton frequency representations by embedding joint features into frequency attention maps, aiming to distinguish the discriminative movements based on their frequency coefficients. Subsequently, we develop a mixed transformer architecture to incorporate spatial features with frequency features to model the comprehensive frequency-spatial patterns. Additionally, a temporal transformer is proposed to extract the global correlations across frames. Extensive experiments show that FreqMiXFormer outperforms SOTA on 3 popular skeleton action recognition datasets, including NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
arxiv情報
著者 | Wenhan Wu,Ce Zheng,Zihao Yang,Chen Chen,Srijan Das,Aidong Lu |
発行日 | 2024-07-26 13:04:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google