要約
可視光線から可視光線への人物再識別(V2V)と比較して、可視光線から赤外線への人物再識別(V2I)は、十分な学習サンプルの欠如とクロスモダリティの大きな不一致により、より困難なタスクである。 そこで、本研究では、V2I人物再識別のための学習サンプルの拡張とクロスモダリティ画像生成を同時に実現する統一的なフレームワークFlow2Flowを提案する。 Flow2Flowは、可視画像領域と赤外領域の双方から、それぞれ反転可能な可視フローベース生成器と赤外フローベース生成器による等方性ガウス共有領域への双射変換を学習する。 Flow2Flowでは、潜在的なガウスノイズから可視画像や赤外画像への変換により疑似学習サンプルを生成し、既存モダリティ画像から潜在的なガウスノイズへの変換によりミッシングモダリティ画像を生成することが可能である。 生成された画像のIDアライメントとモダリティアライメントのために、Flow2Flowを学習させるための敵対的学習戦略を開発する。 具体的には、各モダリティに対して、画像エンコーダとモダリティ識別器を設計する。 画像エンコーダは、同一人物である実画像と類似した画像を生成するように敵対的学習を行い、モダリティ識別器は、生成された画像を実画像とモード的に区別できないようにする敵対的学習を行います。 SYSU-MM01とRegDBを用いた実験の結果、学習サンプルの拡張とモダリティを超えた画像生成の両方により、V2I ReIDの精度を大幅に向上できることが実証されました。
要約(オリジナル)
Compared to visible-to-visible (V2V) person re-identification (ReID), the visible-to-infrared (V2I) person ReID task is more challenging due to the lack of sufficient training samples and the large cross-modality discrepancy. To this end, we propose Flow2Flow, a unified framework that could jointly achieve training sample expansion and cross-modality image generation for V2I person ReID. Specifically, Flow2Flow learns bijective transformations from both the visible image domain and the infrared domain to a shared isotropic Gaussian domain with an invertible visible flow-based generator and an infrared one, respectively. With Flow2Flow, we are able to generate pseudo training samples by the transformation from latent Gaussian noises to visible or infrared images, and generate cross-modality images by transformations from existing-modality images to latent Gaussian noises to missing-modality images. For the purpose of identity alignment and modality alignment of generated images, we develop adversarial training strategies to train Flow2Flow. Specifically, we design an image encoder and a modality discriminator for each modality. The image encoder encourages the generated images to be similar to real images of the same identity via identity adversarial training, and the modality discriminator makes the generated images modal-indistinguishable from real images via modality adversarial training. Experimental results on SYSU-MM01 and RegDB demonstrate that both training sample expansion and cross-modality image generation can significantly improve V2I ReID accuracy.
arxiv情報
著者 | Honghu Pan,Yongyong Chen,Yunqi He,Xin Li,Zhenyu He |
発行日 | 2022-10-04 13:09:29+00:00 |
arxivサイト | arxiv_id(pdf) |