BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models

要約

大型ビジョンモデル(LVM)ベースの歩行認識は、印象的なパフォーマンスを達成しました。
ただし、既存のLVMベースのアプローチは、LVM自体の本質的な価値、特にその多層全体の豊富で明確な表現を無視しながら、歩行事前を強調しすぎている可能性があります。
LVMの可能性を適切にロック解除するために、この作業では、下流の認識タスクに対するレイヤーごとの表現の影響を調査します。
私たちの分析は、LVMの中間層がタスク全体で補完的な特性を提供し、それらを統合することで、豊かな適切に設計された歩行装置がいなくても、印象的な改善が得られることが明らかになりました。
この洞察に基づいて、LVMベースの歩行認識のためのシンプルで普遍的なベースラインを提案します。
CCPG、CAISA-B*、SUSTECH1K、およびCCGR \ _Miniの包括的な評価は、ドメイン内およびクロスクロスの両方のタスクにわたるBiggergaitの優位性を検証し、歩行表現学習のためのシンプルでありながら実用的なベースラインとして確立します。
すべてのモデルとコードが公開されます。

要約(オリジナル)

Large vision models (LVM) based gait recognition has achieved impressive performance. However, existing LVM-based approaches may overemphasize gait priors while neglecting the intrinsic value of LVM itself, particularly the rich, distinct representations across its multi-layers. To adequately unlock LVM’s potential, this work investigates the impact of layer-wise representations on downstream recognition tasks. Our analysis reveals that LVM’s intermediate layers offer complementary properties across tasks, integrating them yields an impressive improvement even without rich well-designed gait priors. Building on this insight, we propose a simple and universal baseline for LVM-based gait recognition, termed BiggerGait. Comprehensive evaluations on CCPG, CAISA-B*, SUSTech1K, and CCGR\_MINI validate the superiority of BiggerGait across both within- and cross-domain tasks, establishing it as a simple yet practical baseline for gait representation learning. All the models and code will be publicly available.

arxiv情報

著者 Dingqing Ye,Chao Fan,Zhanbo Huang,Chengwen Luo,Jianqiang Li,Shiqi Yu,Xiaoming Liu
発行日 2025-05-23 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク