要約
模範ベースの画像色付けは、参照色の画像を使用してグレースケール画像を色付けし、セマンティックな類似性に基づいて対応する入力領域に参照色が適用されるようにすることを目的としています。
地域間の正確なセマンティックマッチングを実現するために、大規模なデータセットでトレーニングされ、強力な注意能力を示す事前に訓練された拡散モデルの自己触媒モジュールを活用します。
この力を活用するために、事前に訓練された拡散モデルに基づいて、2つの重要な貢献をしている斬新で微調整フリーのアプローチを提案します。
まず、デュアルな注意ガイド色の色伝達を紹介します。
自己関節モジュールを利用して、入力画像と参照画像の間に注意マップを計算し、セマンティック対応を効果的にキャプチャします。
参照画像の色の特徴は、この注意マップに導かれて、入力画像の意味的に一致する領域に転送され、最後に、グレースケール機能は対応する色の特徴に置き換えられます。
特に、グレースケールとカラー画像の注意マップを個別に計算するために二重の注意を利用して、より正確なセマンティックアライメントを実現します。
第二に、分類剤を含まない色化ガイダンスを提案します。これは、色伝達された出力と非カラー移動出力を組み合わせて転送された色を強化することを提案します。
このプロセスは、色付けの品質を向上させます。
私たちの実験結果は、私たちの方法が、画質と参照の忠実度の観点から既存の手法よりも優れていることを示しています。
具体的には、以前の研究から335の入力参照ペアを使用し、95.27(画質)と5.51のSI-FID(参照の忠実度)のFIDを達成します。
ソースコードは、https://github.com/satoshi-kosugi/powerful-attentionで入手できます。
要約(オリジナル)
Exemplar-based image colorization aims to colorize a grayscale image using a reference color image, ensuring that reference colors are applied to corresponding input regions based on their semantic similarity. To achieve accurate semantic matching between regions, we leverage the self-attention module of a pre-trained diffusion model, which is trained on a large dataset and exhibits powerful attention capabilities. To harness this power, we propose a novel, fine-tuning-free approach based on a pre-trained diffusion model, making two key contributions. First, we introduce dual attention-guided color transfer. We utilize the self-attention module to compute an attention map between the input and reference images, effectively capturing semantic correspondences. The color features from the reference image is then transferred to the semantically matching regions of the input image, guided by this attention map, and finally, the grayscale features are replaced with the corresponding color features. Notably, we utilize dual attention to calculate attention maps separately for the grayscale and color images, achieving more precise semantic alignment. Second, we propose classifier-free colorization guidance, which enhances the transferred colors by combining color-transferred and non-color-transferred outputs. This process improves the quality of colorization. Our experimental results demonstrate that our method outperforms existing techniques in terms of image quality and fidelity to the reference. Specifically, we use 335 input-reference pairs from previous research, achieving an FID of 95.27 (image quality) and an SI-FID of 5.51 (fidelity to the reference). Our source code is available at https://github.com/satoshi-kosugi/powerful-attention.
arxiv情報
著者 | Satoshi Kosugi |
発行日 | 2025-05-21 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google