T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion Probabilistic Models

要約

現代の監視システムは、深層学習ベースの顔認証ネットワークを使用して人物認識を実行します。
最先端の顔認証システムのほとんどは、可視スペクトル画像を使用してトレーニングされています。
ただし、可視スペクトルで画像を取得することは、暗い場所や夜間の状況では実用的ではなく、多くの場合、熱赤外線ドメインなどの別のドメインで画像がキャプチャされます。
赤外線画像での顔認証は、対応する可視領域画像を取得した後に実行されることがよくあります。
これは、熱画像から可視画像への変換 (T2V) としてよく知られている確立された問題です。
この論文では、特に顔画像の T2V 変換のためのノイズ除去拡散確率モデル (DDPM) ベースのソリューションを提案します。
トレーニング中、モデルは、拡散プロセスを通じて、対応する熱画像が与えられると、目に見える顔画像の条件付き分布を学習します。
推論中、ガウス ノイズから開始してノイズ除去を繰り返し実行することにより、可視領域の画像が取得されます。
DDPM の既存の推論プロセスは確率論的であり、時間がかかります。
したがって、特にT2V画像変換の問題に対して、DDPMの推論時間を高速化するための新しい推論戦略を提案します。
複数のデータセットで最先端の結果を達成します。
コードと事前トレーニング済みのモデルは、http://github.com/Nithin-GK/T2V-DDPM で公開されています。

要約(オリジナル)

Modern-day surveillance systems perform person recognition using deep learning-based face verification networks. Most state-of-the-art facial verification systems are trained using visible spectrum images. But, acquiring images in the visible spectrum is impractical in scenarios of low-light and nighttime conditions, and often images are captured in an alternate domain such as the thermal infrared domain. Facial verification in thermal images is often performed after retrieving the corresponding visible domain images. This is a well-established problem often known as the Thermal-to-Visible (T2V) image translation. In this paper, we propose a Denoising Diffusion Probabilistic Model (DDPM) based solution for T2V translation specifically for facial images. During training, the model learns the conditional distribution of visible facial images given their corresponding thermal image through the diffusion process. During inference, the visible domain image is obtained by starting from Gaussian noise and performing denoising repeatedly. The existing inference process for DDPMs is stochastic and time-consuming. Hence, we propose a novel inference strategy for speeding up the inference time of DDPMs, specifically for the problem of T2V image translation. We achieve the state-of-the-art results on multiple datasets. The code and pretrained models are publically available at http://github.com/Nithin-GK/T2V-DDPM

arxiv情報

著者 Nithin Gopalakrishnan Nair,Vishal M. Patel
発行日 2022-09-19 07:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク