Skeleton-based Action Recognition via Temporal-Channel Aggregation

要約

スケルトンに基づく行動認識手法は、時空間スケルトンマップの意味的な抽出に限界がある。しかし、現在の手法では、時空間グラフの両次元からの特徴を効果的に組み合わせることが難しく、一方が厚く、他方が薄いという傾向がある。本論文では、骨格に基づく行動認識のために、空間的・時間的トポロジーを動的に学習し、異なる時間・チャンネル次元のトポロジー特徴を効率的に集約するTemporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN)を提案する。時間次元の特徴を学習するためにTemporal Aggregationモジュールを、空間的な動的チャネル単位のトポロジー特徴と時間的な動的トポロジー特徴を効率的に組み合わせるためにChannel Aggregationモジュールを使用する。さらに、時間的モデリングに関するマルチスケール骨格特徴を抽出し、注目機構と融合させる。広範な実験により、我々のモデルの結果は、NTU RGB+D, NTU RGB+D 120, NW-UCLAデータセットにおいて、最先端手法を凌駕していることが示されている。

要約(オリジナル)

Skeleton-based action recognition methods are limited by the semantic extraction of spatio-temporal skeletal maps. However, current methods have difficulty in effectively combining features from both temporal and spatial graph dimensions and tend to be thick on one side and thin on the other. In this paper, we propose a Temporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN) to learn spatial and temporal topologies dynamically and efficiently aggregate topological features in different temporal and channel dimensions for skeleton-based action recognition. We use the Temporal Aggregation module to learn temporal dimensional features and the Channel Aggregation module to efficiently combine spatial dynamic channel-wise topological features with temporal dynamic topological features. In addition, we extract multi-scale skeletal features on temporal modeling and fuse them with an attention mechanism. Extensive experiments show that our model results outperform state-of-the-art methods on the NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.

arxiv情報

著者 Shengqin Wang,Yongji Zhang,Minghao Zhao,Hong Qi,Kai Wang,Fenglin Wei,Yu Jiang
発行日 2022-08-08 12:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク