LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images

要約

特に顔の翻訳ネットワークでの最新の機械学習の成功は、高品質でペアの大規模なデータセットの可用性に大きく依存しています。
ただし、十分なデータを取得することは、多くの場合、挑戦的で費用がかかります。
大規模な言語モデル(LLMS)における高品質の画像合成と進歩における拡散モデルの最近の成功に触発され、LLMアシストペアイメージ生成(LAPIG)と呼ばれる新しいフレームワークを提案します。
このフレームワークにより、LLMSによって生成されたキャプションを使用して、包括的で高品質のペアの可視画像とサーマル画像の構築を可能にします。
私たちの方法には、3つの部分が含まれます。ArcfaceEmbeddingを使用した可視画像合成、潜在的拡散モデル(LDMS)を使用した熱画像変換、およびLLMを使用したキャプション生成です。
私たちのアプローチは、データの多様性を高めるためにマルチビューペアの可視画像とサーマル画像を生成するだけでなく、アイデンティティ情報を維持しながら高品質のペアのデータを生成します。
既存のメソッドと比較することにより、パブリックデータセットでの方法を評価し、Lapigの優位性を実証します。

要約(オリジナル)

The success of modern machine learning, particularly in facial translation networks, is highly dependent on the availability of high-quality, paired, large-scale datasets. However, acquiring sufficient data is often challenging and costly. Inspired by the recent success of diffusion models in high-quality image synthesis and advancements in Large Language Models (LLMs), we propose a novel framework called LLM-assisted Paired Image Generation (LaPIG). This framework enables the construction of comprehensive, high-quality paired visible and thermal images using captions generated by LLMs. Our method encompasses three parts: visible image synthesis with ArcFace embedding, thermal image translation using Latent Diffusion Models (LDMs), and caption generation with LLMs. Our approach not only generates multi-view paired visible and thermal images to increase data diversity but also produces high-quality paired data while maintaining their identity information. We evaluate our method on public datasets by comparing it with existing methods, demonstrating the superiority of LaPIG.

arxiv情報

著者 Leyang Wang,Joice Lin
発行日 2025-03-20 17:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク