Gait Recognition in the Wild with Multi-hop Temporal Switch

要約

歩行認識に関する既存の研究は、実験室でのシナリオが主流です。
人々は現実世界の感覚で生きているため、野生での歩行認識はより現実的な問題であり、最近マルチメディアとコンピューター ビジョンのコミュニティの注目を集めています。
ラボ内のベンチマークで最先端のパフォーマンスを得る現在の方法は、最近提案された野生のデータセットではるかに悪い精度を達成します。これらの方法は、制約のないシーンでの歩行シーケンスのさまざまな時間的ダイナミクスをほとんどモデル化できないためです。
したがって、この論文では、現実世界のシーンで歩行パターンの効果的な時間モデリングを実現するための新しいマルチホップ時間スイッチ方法を提示します。
具体的には、空間的特徴とマルチスケールの時間的特徴を同時に学習するために、Multi-hop Temporal Switch Network (MTSGait) という新しい歩行認識ネットワークを設計します。
時間モデリングに 3D 畳み込みを使用する既存の方法とは異なり、MTSGait は 2D 畳み込みによって歩行シーケンスの時間的ダイナミクスをモデル化します。
これにより、少ないモデルパラメータで高効率を実現し、3D 畳み込みベースのモデルと比較して最適化の難易度を下げます。
2D畳み込みカーネルの特定の設計に基づいて、私たちの方法は隣接するフレーム間の機能の不整列を排除できます。
さらに、新しいサンプリング戦略、つまり非循環連続サンプリングが提案され、モデルがより堅牢な時間的特徴を学習できるようになります。
最後に、提案された方法は、最先端の方法と比較して、GREW と Gait3D の 2 つの公開された歩行データセットで優れたパフォーマンスを達成します。

要約(オリジナル)

Existing studies for gait recognition are dominated by in-the-lab scenarios. Since people live in real-world senses, gait recognition in the wild is a more practical problem that has recently attracted the attention of the community of multimedia and computer vision. Current methods that obtain state-of-the-art performance on in-the-lab benchmarks achieve much worse accuracy on the recently proposed in-the-wild datasets because these methods can hardly model the varied temporal dynamics of gait sequences in unconstrained scenes. Therefore, this paper presents a novel multi-hop temporal switch method to achieve effective temporal modeling of gait patterns in real-world scenes. Concretely, we design a novel gait recognition network, named Multi-hop Temporal Switch Network (MTSGait), to learn spatial features and multi-scale temporal features simultaneously. Different from existing methods that use 3D convolutions for temporal modeling, our MTSGait models the temporal dynamics of gait sequences by 2D convolutions. By this means, it achieves high efficiency with fewer model parameters and reduces the difficulty in optimization compared with 3D convolution-based models. Based on the specific design of the 2D convolution kernels, our method can eliminate the misalignment of features among adjacent frames. In addition, a new sampling strategy, i.e., non-cyclic continuous sampling, is proposed to make the model learn more robust temporal features. Finally, the proposed method achieves superior performance on two public gait in-the-wild datasets, i.e., GREW and Gait3D, compared with state-of-the-art methods.

arxiv情報

著者 Jinkai Zheng,Xinchen Liu,Xiaoyan Gu,Yaoqi Sun,Chuang Gan,Jiyong Zhang,Wu Liu,Chenggang Yan
発行日 2022-09-01 10:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク