要約
可視-赤外人物再同定(VI-ReID)は、可視画像と赤外画像の間の著しいクロスモダリティ不一致のために困難である。既存の手法は、複雑なネットワークアーキテクチャの設計や、モダリティ不変な特徴を学習するためのメトリック学習制約を用いることに重点を置いているが、画像のどの特定の成分がモダリティ不一致問題を引き起こすかを見落としていることが多い。本論文では、まず可視画像と赤外画像の振幅成分の違いがモダリティ不一致を引き起こす主要因であることを明らかにし、さらに周波数領域の観点からモダリティ不一致を低減するための新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。本フレームワークは、画像レベルと特徴レベルの両方において、モダリティ不変振幅成分を強化し、モダリティ固有成分を抑制するために、インスタンス適応振幅フィルタ(IAF)モジュールとフレーズ保存正規化(PPNorm)モジュールの2つの新しいモジュールを導入する。SYUSU-MM01とRegDBという2つの標準的なベンチマークを用いた広範な実験結果は、我々のFDMNetが最先端の手法に対して優れた性能を持つことを示している。
要約(オリジナル)
Visible-infrared person re-identification (VI-ReID) is challenging due to the significant cross-modality discrepancies between visible and infrared images. While existing methods have focused on designing complex network architectures or using metric learning constraints to learn modality-invariant features, they often overlook which specific component of the image causes the modality discrepancy problem. In this paper, we first reveal that the difference in the amplitude component of visible and infrared images is the primary factor that causes the modality discrepancy and further propose a novel Frequency Domain modality-invariant feature learning framework (FDMNet) to reduce modality discrepancy from the frequency domain perspective. Our framework introduces two novel modules, namely the Instance-Adaptive Amplitude Filter (IAF) module and the Phrase-Preserving Normalization (PPNorm) module, to enhance the modality-invariant amplitude component and suppress the modality-specific component at both the image- and feature-levels. Extensive experimental results on two standard benchmarks, SYSU-MM01 and RegDB, demonstrate the superior performance of our FDMNet against state-of-the-art methods.
arxiv情報
著者 | Yulin Li,Tianzhu Zhang,Yongdong Zhang |
発行日 | 2024-01-04 03:23:04+00:00 |
arxivサイト | arxiv_id(pdf) |