要約
歩行認識は、協力を必要とせず、非侵入的な方法で遠隔から人物を認識する技術として、学界や産業界からますます注目を集めています。
高度な手法は実験室のシナリオでは目覚ましい成功を収めていますが、そのほとんどは実際の環境ではあまり機能しません。
最近、実際の歩行認識の問題に対処するために、いくつかの畳み込みニューラル ネットワーク (ConvNets) ベースの方法が提案されています。
ただし、畳み込み演算によって得られる時間的受容野は、長い歩行シーケンスでは制限されます。
畳み込みブロックをビジュアル トランスフォーマー ブロックに直接置き換える場合、モデルは完全な歩行サイクルをカバーするために重要な局所的な時間受容野を強化できない可能性があります。
この問題に対処するために、私たちはグローバル-ローカル時間的受容野ネットワーク (GLGait) を設計します。
GLGait は、グローバル – ローカル時間モジュール (GLTM) を使用して、主に擬似グローバル時間セルフ アテンション (PGTA) と時間畳み込み演算で構成されるグローバル – ローカル時間受容野を確立します。
具体的には、PGTA は、マルチヘッドセルフアテンション (MHSA) と比較してメモリと計算の複雑さが少なく、擬似グローバル時間受容野を取得するために使用されます。
時間的畳み込み演算は、局所的な時間的受容野を強化するために使用されます。
さらに、擬似的な全体的な時間的受容野を真の全体的時間的受容野に集約することもできます。
さらに、クラス内距離を短縮し、トレーニング段階で陽性サンプルを拡大するために、GLGait の Center-Augmented Triplet Loss (CTL) も提案します。
広範な実験により、私たちの方法が野生のデータセット、$i.e.$、Gait3D、GREW で最先端の結果が得られることが示されています。
コードは https://github.com/bgdpgz/GLGait で入手できます。
要約(オリジナル)
Gait recognition has attracted increasing attention from academia and industry as a human recognition technology from a distance in non-intrusive ways without requiring cooperation. Although advanced methods have achieved impressive success in lab scenarios, most of them perform poorly in the wild. Recently, some Convolution Neural Networks (ConvNets) based methods have been proposed to address the issue of gait recognition in the wild. However, the temporal receptive field obtained by convolution operations is limited for long gait sequences. If directly replacing convolution blocks with visual transformer blocks, the model may not enhance a local temporal receptive field, which is important for covering a complete gait cycle. To address this issue, we design a Global-Local Temporal Receptive Field Network (GLGait). GLGait employs a Global-Local Temporal Module (GLTM) to establish a global-local temporal receptive field, which mainly consists of a Pseudo Global Temporal Self-Attention (PGTA) and a temporal convolution operation. Specifically, PGTA is used to obtain a pseudo global temporal receptive field with less memory and computation complexity compared with a multi-head self-attention (MHSA). The temporal convolution operation is used to enhance the local temporal receptive field. Besides, it can also aggregate pseudo global temporal receptive field to a true holistic temporal receptive field. Furthermore, we also propose a Center-Augmented Triplet Loss (CTL) in GLGait to reduce the intra-class distance and expand the positive samples in the training stage. Extensive experiments show that our method obtains state-of-the-art results on in-the-wild datasets, $i.e.$, Gait3D and GREW. The code is available at https://github.com/bgdpgz/GLGait.
arxiv情報
著者 | Guozhen Peng,Yunhong Wang,Yuwei Zhao,Shaoxiong Zhang,Annan Li |
発行日 | 2024-08-13 11:48:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google