CLIP4Sketch: Enhancing Sketch to Mugshot Matching through Dataset Augmentation using Diffusion Models

要約

法医学的スケッチと顔写真の照合は顔認識において困難な作業であり、主に注釈付きの法医学的スケッチの不足と、スケッチと写真の間のモダリティのギャップによって妨げられています。
これに対処するために、私たちは拡散モデルを活用して大規模で多様なスケッチ画像セットを生成する新しいアプローチである CLIP4Sketch を提案します。これは、スケッチと顔写真のマッチングにおける顔認識システムのパフォーマンスの向上に役立ちます。
私たちの方法では、ノイズ除去拡散確率モデル (DDPM) を利用して、アイデンティティとスタイルを明示的に制御してスケッチを生成します。
拡散モデルの条件として、参照顔写真の CLIP と Adaface の埋め込みとスタイルのテキスト記述を組み合わせます。
顔写真に対応するスケッチの包括的なデータセットを生成し、合成データに基づいて顔認識モデルをトレーニングすることで、アプローチの有効性を実証します。
私たちの結果は、既存の限られた量の実際の顔スケッチデータでのトレーニングに比べて、スケッチと顔写真のマッチング精度が大幅に向上していることを示しており、モダリティ全体で顔認識システムのパフォーマンスを向上させる拡散モデルの可能性を検証しています。
また、私たちのデータセットを GAN ベースの手法を使用して生成されたデータセットと比較して、その優位性を示します。

要約(オリジナル)

Forensic sketch-to-mugshot matching is a challenging task in face recognition, primarily hindered by the scarcity of annotated forensic sketches and the modality gap between sketches and photographs. To address this, we propose CLIP4Sketch, a novel approach that leverages diffusion models to generate a large and diverse set of sketch images, which helps in enhancing the performance of face recognition systems in sketch-to-mugshot matching. Our method utilizes Denoising Diffusion Probabilistic Models (DDPMs) to generate sketches with explicit control over identity and style. We combine CLIP and Adaface embeddings of a reference mugshot, along with textual descriptions of style, as the conditions to the diffusion model. We demonstrate the efficacy of our approach by generating a comprehensive dataset of sketches corresponding to mugshots and training a face recognition model on our synthetic data. Our results show significant improvements in sketch-to-mugshot matching accuracy over training on an existing, limited amount of real face sketch data, validating the potential of diffusion models in enhancing the performance of face recognition systems across modalities. We also compare our dataset with datasets generated using GAN-based methods to show its superiority.

arxiv情報

著者 Kushal Kumar Jain,Steve Grosz,Anoop M. Namboodiri,Anil K. Jain
発行日 2024-08-13 12:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク