Topological Symmetry Enhanced Graph Convolution for Skeleton-Based Action Recognition

要約

スケルトンベースのアクション認識は、グラフ畳み込みネットワーク (GCN) の開発により、目覚ましいパフォーマンスを達成しました。
ただし、これらの方法のほとんどは、人体の固有の対称性を無視して、複雑なトポロジー学習メカニズムを構築する傾向があります。
さらに、特定の固定受容野で時間畳み込みを使用すると、時系列の依存関係を効果的に捕捉する能力が制限されます。
この問題に対処するために、我々は、(1) トポロジカル対称性の認識を組み込みながら、異なるチャネル パーティションにわたる明確なトポロジ学習を可能にする新しいトポロジカル対称拡張グラフ畳み込み (TSE-GC) を提案し、(2) マルチブランチ変形可能時間畳み込み (MBDTC) を構築します。
) スケルトンベースのアクション認識用。
提案された TSE-GC は、人体の固有の対称性を強調しながら、動的トポロジーの効率的な学習を可能にします。
一方、MBDTC の設計では、変形可能なモデリングの概念が導入され、より柔軟な受容野と時間的依存関係の強力なモデリング能力が実現します。
TSE-GC と MBDTC を組み合わせた最終モデル TSE-GCN は、3 つの大規模なデータセット、NTU RGB+D、NTU RGB+D 120、および NW- に対する最先端の手法と比較して、より少ないパラメーターで競争力のあるパフォーマンスを実現します。
カリフォルニア大学ロサンゼルス校
NTU RGB+D 120 の被験者間およびセット間の評価では、1 つのストリームに対して 1.1M パラメータおよび 1.38 GFLOPS で、モデルの精度は 90.0\% および 91.1\% に達しました。

要約(オリジナル)

Skeleton-based action recognition has achieved remarkable performance with the development of graph convolutional networks (GCNs). However, most of these methods tend to construct complex topology learning mechanisms while neglecting the inherent symmetry of the human body. Additionally, the use of temporal convolutions with certain fixed receptive fields limits their capacity to effectively capture dependencies in time sequences. To address the issues, we (1) propose a novel Topological Symmetry Enhanced Graph Convolution (TSE-GC) to enable distinct topology learning across different channel partitions while incorporating topological symmetry awareness and (2) construct a Multi-Branch Deformable Temporal Convolution (MBDTC) for skeleton-based action recognition. The proposed TSE-GC emphasizes the inherent symmetry of the human body while enabling efficient learning of dynamic topologies. Meanwhile, the design of MBDTC introduces the concept of deformable modeling, leading to more flexible receptive fields and stronger modeling capacity of temporal dependencies. Combining TSE-GC with MBDTC, our final model, TSE-GCN, achieves competitive performance with fewer parameters compared with state-of-the-art methods on three large datasets, NTU RGB+D, NTU RGB+D 120, and NW-UCLA. On the cross-subject and cross-set evaluations of NTU RGB+D 120, the accuracies of our model reach 90.0\% and 91.1\%, with 1.1M parameters and 1.38 GFLOPS for one stream.

arxiv情報

著者 Zeyu Liang,Hailun Xia,Naichuan Zheng,Huan Xu
発行日 2024-11-19 15:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク