要約
モデルベースの歩行認識方法は、通常、歩行者の歩行姿勢を採用して人間を識別します。
ただし、既存の方法では、カメラ ビューの変化による人間のポーズの大きなクラス内分散が明示的に解決されませんでした。
この論文では、上下の敵対的生成ネットワーク (LUGAN) を介してフルランク変換行列を学習することにより、各シングルビュー ポーズ サンプルに対してマルチビュー ポーズ シーケンスを生成することを提案します。
カメラ イメージングの優先順位により、クロスビュー ポーズ間の空間座標がフルランク行列の線形変換を満たすことを導き出し、それにより、この論文では敵対的トレーニングを使用して、ソース ポーズとターゲット ビューから変換行列を学習し、取得します。
ターゲット ポーズ シーケンス。
この目的のために、グラフ畳み込み (GCN) 層、全結合 (FC) 層、および 2 分岐畳み込み (CNN) 層で構成されるジェネレーターを実装します。GCN 層と FC 層は、ソース ポーズ シーケンスとターゲット ビューをエンコードし、次に CNN 分岐します。
下三角行列と上三角行列をそれぞれ学習し、最終的にこれらを乗算してフルランク変換行列を作成します。
敵対的トレーニングの目的で、ポーズシーケンスが真であるか生成されているかを区別する条件弁別器をさらに考案します。
高レベルの相関学習を可能にするために、マルチスケール ハイパーグラフ畳み込み (HGC) という名前のプラグ アンド プレイ モジュールを提案し、ベースラインの空間グラフ畳み込み層を置き換えます。
レベルとボディレベルの相関。
2 つの大規模な歩行認識データセット、すなわち CASIA-B と OUMVLP-Pose に関する広範な実験は、私たちの方法がベースライン モデルと既存の姿勢ベースの方法よりも大幅に優れていることを示しています。
要約(オリジナル)
The model-based gait recognition methods usually adopt the pedestrian walking postures to identify human beings. However, existing methods did not explicitly resolve the large intra-class variance of human pose due to camera views changing. In this paper, we propose to generate multi-view pose sequences for each single-view pose sample by learning full-rank transformation matrices via lower-upper generative adversarial network (LUGAN). By the prior of camera imaging, we derive that the spatial coordinates between cross-view poses satisfy a linear transformation of a full-rank matrix, thereby, this paper employs the adversarial training to learn transformation matrices from the source pose and target views to obtain the target pose sequences. To this end, we implement a generator composed of graph convolutional (GCN) layers, fully connected (FC) layers and two-branch convolutional (CNN) layers: GCN layers and FC layers encode the source pose sequence and target view, then CNN branches learn a lower triangular matrix and an upper triangular matrix, respectively, finally they are multiplied to formulate the full-rank transformation matrix. For the purpose of adversarial training, we further devise a condition discriminator that distinguishes whether the pose sequence is true or generated. To enable the high-level correlation learning, we propose a plug-and-play module, named multi-scale hypergraph convolution (HGC), to replace the spatial graph convolutional layer in baseline, which could simultaneously model the joint-level, part-level and body-level correlations. Extensive experiments on two large gait recognition datasets, i.e., CASIA-B and OUMVLP-Pose, demonstrate that our method outperforms the baseline model and existing pose-based methods by a large margin.
arxiv情報
著者 | Honghu Pan,Yongyong Chen,Tingyang Xu,Yunqi He,Zhenyu He |
発行日 | 2022-09-23 13:13:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google