TSGCNeXt: Dynamic-Static Multi-Graph Convolution for Efficient Skeleton-Based Action Recognition with Long-term Learning Potential

要約

【タイトル】TSGCNeXt: 長期学習ポテンシャルを持つ効率的なスケルトンベースのアクション認識のためのダイナミック-スタティックマルチグラフ畳み込み

【要約】

– スケルトンベースのアクション認識は、グラフ畳み込みネットワーク(GCN)の発展により、人間のアクション認識で注目すべき結果を出している。
– しかし、最近の研究は、冗長なトレーニングを伴う複雑な学習メカニズムを構築する傾向があり、長期的な時系列に対するボトルネックが存在する。
– これらの問題を解決するために、TSGCNeXtを提案し、長期的なスケルトンシーケンスの効率的な学習メカニズムを探索する。
– まず、複数の独立したトポロジーを持つグラフの特徴を集約する新しいグラフ学習メカニズムであるDynamic-Static Separate Multi-graph Convolution(DS-SMG)が提案された。
– 次に、グラフ畳み込みトレーニング加速メカニズムを構築し、動的グラフ学習の逆伝搬計算を最適化し、55.08%の高速化を実現した。
– 最後に、TSGCNeXtは3つの空間-時間学習モジュールを持つGCNの全体的な構造を再構築し、長期的な時空特徴を効率的にモデル化している。
– 大規模なデータセットNTU RGB + D 60およびNTU RGB + D 120において、TSGCNeXtはシングルストリームネットワークで従来の手法より性能が向上している。
– さらに、マルチストリーム融合にemaモデルを導入することで、TSGCNeXtはSOTAの精度を達成している。
– NTU 120の被験者間および被験者内の交差セットでは、精度が90.22%および91.74%に達している。

要約(オリジナル)

Skeleton-based action recognition has achieved remarkable results in human action recognition with the development of graph convolutional networks (GCNs). However, the recent works tend to construct complex learning mechanisms with redundant training and exist a bottleneck for long time-series. To solve these problems, we propose the Temporal-Spatio Graph ConvNeXt (TSGCNeXt) to explore efficient learning mechanism of long temporal skeleton sequences. Firstly, a new graph learning mechanism with simple structure, Dynamic-Static Separate Multi-graph Convolution (DS-SMG) is proposed to aggregate features of multiple independent topological graphs and avoid the node information being ignored during dynamic convolution. Next, we construct a graph convolution training acceleration mechanism to optimize the back-propagation computing of dynamic graph learning with 55.08\% speed-up. Finally, the TSGCNeXt restructure the overall structure of GCN with three Spatio-temporal learning modules,efficiently modeling long temporal features. In comparison with existing previous methods on large-scale datasets NTU RGB+D 60 and 120, TSGCNeXt outperforms on single-stream networks. In addition, with the ema model introduced into the multi-stream fusion, TSGCNeXt achieves SOTA levels. On the cross-subject and cross-set of the NTU 120, accuracies reach 90.22% and 91.74%.

arxiv情報

著者 Dongjingdin Liu,Pengpeng Chen,Miao Yao,Yijing Lu,Zijie Cai,Yuxin Tian
発行日 2023-04-23 12:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク