要約
骨格ベースの行動認識は、人体のコンパクトな骨格構造のため、かなりの注目を集めています。
最近の多くの手法は、空間的特徴と時間的特徴をそれぞれ抽出するグラフ畳み込みネットワーク (GCN) と畳み込みニューラル ネットワーク (CNN) を使用して、驚くべきパフォーマンスを達成しています。
人間の骨格における空間的および時間的依存性が調査されていますが、時空間的依存性はほとんど考慮されていません。
この論文では、フレーム間曲線ネットワーク (IFC-Net) を提案して、人間の骨格の時空間依存性を効果的に活用します。
私たちが提案するネットワークは、2 つの新しい要素で構成されています。1) フレーム間曲線 (IFC) モジュール。
2) Dilated Graph Convolution (D-GC)。
IFCモジュールは、隣接するすべてのフレーム間の意味のあるノード接続を識別し、識別されたノード接続に基づいて時空間曲線を生成することにより、時空間受容野を増加させます。
D-GC により、ネットワークは、特に空間ドメインに焦点を当てた大きな空間受容野を持つことができます。
D-GC のカーネルは、グラフの指定された隣接行列から計算され、拡張された CNN と同様の方法で大きな受容野を反映します。
当社の IFC-Net は、これら 2 つのモジュールを組み合わせて、3 つのスケルトンベースの動作認識ベンチマークで最先端のパフォーマンスを実現します: NTU-RGB+D 60、NTU-RGB+D 120、および Northwestern-UCLA。
要約(オリジナル)
Skeleton-based action recognition has attracted considerable attention due to its compact skeletal structure of the human body. Many recent methods have achieved remarkable performance using graph convolutional networks (GCNs) and convolutional neural networks (CNNs), which extract spatial and temporal features, respectively. Although spatial and temporal dependencies in the human skeleton have been explored, spatio-temporal dependency is rarely considered. In this paper, we propose the Inter-Frame Curve Network (IFC-Net) to effectively leverage the spatio-temporal dependency of the human skeleton. Our proposed network consists of two novel elements: 1) The Inter-Frame Curve (IFC) module; and 2) Dilated Graph Convolution (D-GC). The IFC module increases the spatio-temporal receptive field by identifying meaningful node connections between every adjacent frame and generating spatio-temporal curves based on the identified node connections. The D-GC allows the network to have a large spatial receptive field, which specifically focuses on the spatial domain. The kernels of D-GC are computed from the given adjacency matrices of the graph and reflect large receptive field in a way similar to the dilated CNNs. Our IFC-Net combines these two modules and achieves state-of-the-art performance on three skeleton-based action recognition benchmarks: NTU-RGB+D 60, NTU-RGB+D 120, and Northwestern-UCLA.
arxiv情報
| 著者 | Jungho Lee,Minhyeok Lee,Suhwan Cho,Sungmin Woo,Sangyoun Lee |
| 発行日 | 2022-12-09 10:37:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google