要約
骨格ベースの行動認識は、骨格の相互接続を持つ人間の関節座標を考慮して、人間の行動を予測することを目的としています。
このようなオフグリッド データ ポイントとそれらの共起をモデル化するには、Transformer ベースの定式化が当然の選択です。
ただし、トランスフォーマーは、グラフ畳み込みネットワーク (GCN) を使用する最先端の方法にはまだ遅れをとっています。
トランスフォーマーは、入力が順列不変で同種であると仮定します (位置エンコーディングによって部分的に軽減されます)。これは、スケルトン データの重要な特性、つまり骨の接続性を無視します。
さらに、体の各タイプの関節は、人間の動きにおいて明確な物理的意味を持っています。つまり、関節の座標に関係なく、動きは固有の関係を保持しますが、これはトランスフォーマーでは調査されていません。
実際、体の関節の特定の再発グループは、バランスを保つための無意識の手の動きなど、特定の動作に関与していることがよくあります。
バニラの注意は、永続的でペアワイズを超えたそのような根底にある関係を説明することができません.
この作業では、スケルトン データのこれらのユニークな側面を活用して、Transformer と GCN 間のパフォーマンス ギャップを埋めることを目指しています。
具体的には、本質的に高次の関係をモデルに組み込むために、Hypergraph Self-Attention (HyperSA) という名前の新しい自己注意 (SA) 拡張を提案します。
骨の接続性を考慮するために、K ホップの相対位置埋め込みも使用されます。
得られたモデルを Hyperformer と名付け、同等またはそれ以上のパフォーマンスを実現します。
NTU RGB+D、NTU RGB+D 120、および Northwestern-UCLA データセットでは、最先端の GCN アーキテクチャよりも正確で効率的です。
最大の NTU RGB+D 120 データセットで、Hyperformer によって達成された大幅に改善されたパフォーマンスは、この分野における Transformer モデルの過小評価された可能性を示しています。
要約(オリジナル)
Skeleton-based action recognition aims to predict human actions given human joint coordinates with skeletal interconnections. To model such off-grid data points and their co-occurrences, Transformer-based formulations would be a natural choice. However, Transformers still lag behind state-of-the-art methods using graph convolutional networks (GCNs). Transformers assume that the input is permutation-invariant and homogeneous (partially alleviated by positional encoding), which ignores an important characteristic of skeleton data, i.e., bone connectivity. Furthermore, each type of body joint has a clear physical meaning in human motion, i.e., motion retains an intrinsic relationship regardless of the joint coordinates, which is not explored in Transformers. In fact, certain re-occurring groups of body joints are often involved in specific actions, such as the subconscious hand movement for keeping balance. Vanilla attention is incapable of describing such underlying relations that are persistent and beyond pair-wise. In this work, we aim to exploit these unique aspects of skeleton data to close the performance gap between Transformers and GCNs. Specifically, we propose a new self-attention (SA) extension, named Hypergraph Self-Attention (HyperSA), to incorporate inherently higher-order relations into the model. The K-hop relative positional embeddings are also employed to take bone connectivity into account. We name the resulting model Hyperformer, and it achieves comparable or better performance w.r.t. accuracy and efficiency than state-of-the-art GCN architectures on NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA datasets. On the largest NTU RGB+D 120 dataset, the significantly improved performance reached by our Hyperformer demonstrates the underestimated potential of Transformer models in this field.
arxiv情報
著者 | Yuxuan Zhou,Chao Li,Zhi-Qi Cheng,Yifeng Geng,Xuansong Xie,Margret Keuper |
発行日 | 2022-11-17 15:36:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google