HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition


近年、映像理解における重要な役割のため、行動認識が注目され、広く応用されている。行動認識手法に関する研究の多くは、スケルトン点の分類よりも、様々なディープラーニング手法による性能向上に焦点が当てられていた。骨格点と身体部位の間のトポロジーモデリングはほとんど考慮されていなかった。いくつかの研究では、データドリブンアプローチを用いて骨格点のトポロジーを分類しているが、運動学的な観点からの骨格点の性質は考慮されていない。そこで本論文では、骨格点のトポロジー関係を適応するために運動学の理論を利用し、体の部位と体の中心からの距離に基づいたトポロジー関係の分類を提案する。これらの位相関係を行動認識のために合成するために、我々は新しいハイパーグラフ融合グラフ畳み込みネットワーク(Hypergraph Fusion Graph Convolutional Network: HFGCN)を提案する。特に、提案モデルは、人間の骨格点と異なる身体部位に同時に着目し、トポロジーを構築することができ、認識精度を明らかに向上させる。また、骨格点間の高次関係をモデル化し、ネットワークの特徴表現を強化するために、ハイパーグラフを用いて骨格点のカテゴリ的関係を表現し、ハイパーグラフをグラフ畳み込みネットワークに組み込む。さらに、我々の提案するハイパーグラフ注意モジュールとハイパーグラフ畳み込みモジュールは、それぞれ時間次元とチャンネル次元のトポロジーモデリングを最適化し、ネットワークの特徴表現をさらに強化する。その結果、我々の提案手法は、最新のスケルトンベースの手法と比較して、最高の性能を達成できることが検証された。


In recent years, action recognition has received much attention and wide application due to its important role in video understanding. Most of the researches on action recognition methods focused on improving the performance via various deep learning methods rather than the classification of skeleton points. The topological modeling between skeleton points and body parts was seldom considered. Although some studies have used a data-driven approach to classify the topology of the skeleton point, the nature of the skeleton point in terms of kinematics has not been taken into consideration. Therefore, in this paper, we draw on the theory of kinematics to adapt the topological relations of the skeleton point and propose a topological relation classification based on body parts and distance from core of body. To synthesize these topological relations for action recognition, we propose a novel Hypergraph Fusion Graph Convolutional Network (HFGCN). In particular, the proposed model is able to focus on the human skeleton points and the different body parts simultaneously, and thus construct the topology, which improves the recognition accuracy obviously. We use a hypergraph to represent the categorical relationships of these skeleton points and incorporate the hypergraph into a graph convolution network to model the higher-order relationships among the skeleton points and enhance the feature representation of the network. In addition, our proposed hypergraph attention module and hypergraph graph convolution module optimize topology modeling in temporal and channel dimensions, respectively, to further enhance the feature representation of the network. We conducted extensive experiments on three widely used datasets.The results validate that our proposed method can achieve the best performance when compared with the state-of-the-art skeleton-based methods.


著者 Pengcheng Dong,Wenbo Wan,Huaxiang Zhang,Shuai Li,Sujuan Hou,Jiande Sun
発行日 2025-02-03 03:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク