CLIP4Sketch: Enhancing Sketch to Mugshot Matching through Dataset Augmentation using Diffusion Models

要約

法医学的スケッチと顔写真の照合は、顔認識における困難なタスクであり、主に、注釈付きの法医学的スケッチの希少性と、スケッチと写真の間のモダリティギャップによって妨げられている。この問題に対処するために、我々はCLIP4Sketchを提案する。CLIP4Sketchは、拡散モデルを活用して大規模かつ多様なスケッチ画像セットを生成する新しいアプローチであり、スケッチと顔写真の照合における顔認識システムの性能向上に役立つ。私たちの手法は、デノイジング拡散確率モデル(DDPM)を利用して、アイデンティティとスタイルを明示的に制御したスケッチを生成します。我々は、拡散モデルの条件として、スタイルのテキスト記述とともに、参照顔写真のCLIPとAdaface埋め込みを組み合わせる。我々は、顔写真に対応するスケッチの包括的なデータセットを生成し、合成データ上で顔認識モデルを訓練することにより、我々のアプローチの有効性を実証する。その結果、既存の限られた量の実際の顔スケッチデータで学習するよりも、スケッチと顔写真の照合精度が大幅に向上することが示され、モダリティを超えた顔認識システムの性能向上における拡散モデルの可能性が検証された。また、GANベースの手法を用いて生成されたデータセットと比較し、その優位性を示す。

要約(オリジナル)

Forensic sketch-to-mugshot matching is a challenging task in face recognition, primarily hindered by the scarcity of annotated forensic sketches and the modality gap between sketches and photographs. To address this, we propose CLIP4Sketch, a novel approach that leverages diffusion models to generate a large and diverse set of sketch images, which helps in enhancing the performance of face recognition systems in sketch-to-mugshot matching. Our method utilizes Denoising Diffusion Probabilistic Models (DDPMs) to generate sketches with explicit control over identity and style. We combine CLIP and Adaface embeddings of a reference mugshot, along with textual descriptions of style, as the conditions to the diffusion model. We demonstrate the efficacy of our approach by generating a comprehensive dataset of sketches corresponding to mugshots and training a face recognition model on our synthetic data. Our results show significant improvements in sketch-to-mugshot matching accuracy over training on an existing, limited amount of real face sketch data, validating the potential of diffusion models in enhancing the performance of face recognition systems across modalities. We also compare our dataset with datasets generated using GAN-based methods to show its superiority.

arxiv情報

著者 Kushal Kumar Jain,Steve Grosz,Anoop M. Namboodiri,Anil K. Jain
発行日 2024-08-02 12:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク