GaitGL: Learning Discriminative Global-Local Feature Representations for Gait Recognition

要約

既存の歩行認識方法は、元の歩行シーケンスからグローバル フィーチャ リプレゼンテーション (GFR) を直接確立するか、いくつかのローカル パーツからローカル フィーチャ リプレゼンテーション (LFR) を生成します。
ただし、受容野がより深いネットワーク層で大きくなるにつれて、GFRは人間の姿勢の局所的な詳細を無視する傾向があります。
LFR を使用すると、ネットワークは各局所領域の詳細な姿勢情報に集中できますが、異なる局所部分間の関係は無視されるため、いくつかの特定の領域の限定された局所情報しか利用できません。
これらの問題を解決するために、GaitGL という名前のグローバルローカルベースの歩行認識ネットワークを提案して、より識別可能な特徴表現を生成します。
具体的には、新しいグローバルおよびローカル畳み込みレイヤー (GLCL) が開発され、各レイヤーのグローバル視覚情報とローカル領域の詳細の両方を最大限に活用します。
GLCL は、GFR 抽出器とマスクベースの LFR 抽出器で構成される二重分岐構造です。
GFR エクストラクタは、さまざまな身体部分間の関係などのコンテキスト情報を抽出することを目的としており、マスクベースの LFR エクストラクタは、局所領域の詳細な姿勢変化を利用するために提示されています。
さらに、局所特徴抽出機能を改善するための新しいマスクベースの戦略を紹介します。
具体的には、補完的なマスクのペアを設計して特徴マップをランダムにオクルードし、マスクベースの LFR エクストラクタをさまざまなオクルードされた機能マップでトレーニングします。
このようにして、LFR エクストラクタはローカル情報を完全に活用することを学習します。
広範な実験により、GaitGL が最先端の歩行認識方法よりも優れたパフォーマンスを達成することが実証されています。
CASIA-B、OU-MVLP、GREW、および Gait3D の平均ランク 1 精度は、それぞれ 93.6%、98.7%、68.0%、および 63.8% であり、競合する方法よりも大幅に優れています。
提案手法は、HID 2020 と HID 2021 の 2 つのコンペティションで優勝しました。

要約(オリジナル)

Existing gait recognition methods either directly establish Global Feature Representation (GFR) from original gait sequences or generate Local Feature Representation (LFR) from several local parts. However, GFR tends to neglect local details of human postures as the receptive fields become larger in the deeper network layers. Although LFR allows the network to focus on the detailed posture information of each local region, it neglects the relations among different local parts and thus only exploits limited local information of several specific regions. To solve these issues, we propose a global-local based gait recognition network, named GaitGL, to generate more discriminative feature representations. To be specific, a novel Global and Local Convolutional Layer (GLCL) is developed to take full advantage of both global visual information and local region details in each layer. GLCL is a dual-branch structure that consists of a GFR extractor and a mask-based LFR extractor. GFR extractor aims to extract contextual information, e.g., the relationship among various body parts, and the mask-based LFR extractor is presented to exploit the detailed posture changes of local regions. In addition, we introduce a novel mask-based strategy to improve the local feature extraction capability. Specifically, we design pairs of complementary masks to randomly occlude feature maps, and then train our mask-based LFR extractor on various occluded feature maps. In this manner, the LFR extractor will learn to fully exploit local information. Extensive experiments demonstrate that GaitGL achieves better performance than state-of-the-art gait recognition methods. The average rank-1 accuracy on CASIA-B, OU-MVLP, GREW and Gait3D is 93.6%, 98.7%, 68.0% and 63.8%, respectively, significantly outperforming the competing methods. The proposed method has won the first prize in two competitions: HID 2020 and HID 2021.

arxiv情報

著者 Beibei Lin,Shunli Zhang,Ming Wang,Lincheng Li,Xin Yu
発行日 2022-08-02 11:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク