Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification

要約

可視赤外線人物再識別 (VI-reID) は、別々の可視カメラまたは赤外線カメラで撮影されたクロスモダリティの歩行者画像を照合することを目的としています。
既存の方法は、さまざまな種類のネットワーク アーキテクチャを設計することで、クロスモダリティの不一致を軽減します。
利用可能な方法とは異なり、この論文では、VI-ReIDのタスクのための新しいパラメータ最適化パラダイムであるパラメータ階層最適化(PHO)方法を提案します。
これにより、トレーニングを行わずにパラメータの一部を直接最適化できるため、パラメータの探索空間が狭まり、ネットワーク全体のトレーニングがより容易になります。
具体的には、まずパラメータをさまざまなタイプに分割し、次に自己適応型位置合わせ戦略 (SAS) を導入して、変換を通じて可視画像と赤外線画像を自動的に位置合わせします。
異なる次元の特徴にはさまざまな重要性があることを考慮して、重要度に応じて特徴を自動的に重み付けできる自動重み付けアライメント学習 (AAL) モジュールを開発します。
重要なのは、SAS と AAL の調整プロセスでは、ネットワーク全体をトレーニングするのではなく、すべてのパラメーターが最適化原則に基づいて即座に最適化されるため、より優れたパラメーター トレーニング方法が得られるということです。
さらに、翻訳一貫性を持って識別的な人物表現を抽出するために、クロスモダリティ一貫学習(CCL)損失を確立します。
私たちは、私たちが提案する PHO 手法が既存の VI-reID アプローチよりも優れているという理論的根拠と経験的証拠の両方を提供します。

要約(オリジナル)

Visible-infrared person re-identification (VI-reID) aims at matching cross-modality pedestrian images captured by disjoint visible or infrared cameras. Existing methods alleviate the cross-modality discrepancies via designing different kinds of network architectures. Different from available methods, in this paper, we propose a novel parameter optimizing paradigm, parameter hierarchical optimization (PHO) method, for the task of VI-ReID. It allows part of parameters to be directly optimized without any training, which narrows the search space of parameters and makes the whole network more easier to be trained. Specifically, we first divide the parameters into different types, and then introduce a self-adaptive alignment strategy (SAS) to automatically align the visible and infrared images through transformation. Considering that features in different dimension have varying importance, we develop an auto-weighted alignment learning (AAL) module that can automatically weight features according to their importance. Importantly, in the alignment process of SAS and AAL, all the parameters are immediately optimized with optimization principles rather than training the whole network, which yields a better parameter training manner. Furthermore, we establish the cross-modality consistent learning (CCL) loss to extract discriminative person representations with translation consistency. We provide both theoretical justification and empirical evidence that our proposed PHO method outperform existing VI-reID approaches.

arxiv情報

著者 Zeng YU,Yunxiao Shi
発行日 2024-04-11 17:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク