DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models

要約

最近のデータ駆動型画像色彩化手法により、自動または参照ベースの色彩化が可能になったが、依然としてオブジェクトレベルの色彩制御は満足のいくものではなく、不正確なままである。これらの問題に対処するため、我々はDiffColorと呼ばれる新しい手法を提案する。この手法は、事前に訓練された拡散モデルの力を活用し、追加の入力なしに、プロンプトテキストを条件とした鮮やかな色を回復する。DiffColorには主に2つの段階が含まれる:生成的な色事前分布を用いたカラー化と、文脈内で制御可能なカラー化である。具体的には、まず、CLIPに基づくコントラスト損失を用いて着色画像を生成するために、事前に訓練されたテキストから画像へのモデルを微調整する。次に、着色された画像とテキストプロンプトを整合させる最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整された拡散モデルを得ることを試みる。本手法は、数回の繰り返しで、鮮やかで多様な色を生成することができ、ターゲット言語のガイダンスとよく一致した色を持ちながら、構造と背景をそのまま維持することができる。さらに、本手法は、インコンテクスト色付け、すなわち、微調整なしにプロンプトテキストを変更することによって異なる色付け結果を生成することを可能にし、オブジェクトレベルで制御可能な色付け結果を達成することができる。広範な実験とユーザースタディにより、DiffColorは視覚的な品質、色の忠実度、およびカラー化オプションの多様性の点で、過去の作品を凌駕していることが実証されています。

要約(オリジナル)

Recent data-driven image colorization methods have enabled automatic or reference-based colorization, while still suffering from unsatisfactory and inaccurate object-level color control. To address these issues, we propose a new method called DiffColor that leverages the power of pre-trained diffusion models to recover vivid colors conditioned on a prompt text, without any additional inputs. DiffColor mainly contains two stages: colorization with generative color prior and in-context controllable colorization. Specifically, we first fine-tune a pre-trained text-to-image model to generate colorized images using a CLIP-based contrastive loss. Then we try to obtain an optimized text embedding aligning the colorized image and the text prompt, and a fine-tuned diffusion model enabling high-quality image reconstruction. Our method can produce vivid and diverse colors with a few iterations, and keep the structure and background intact while having colors well-aligned with the target language guidance. Moreover, our method allows for in-context colorization, i.e., producing different colorization results by modifying prompt texts without any fine-tuning, and can achieve object-level controllable colorization results. Extensive experiments and user studies demonstrate that DiffColor outperforms previous works in terms of visual quality, color fidelity, and diversity of colorization options.

arxiv情報

著者 Jianxin Lin,Peng Xiao,Yijun Wang,Rongju Zhang,Xiangxiang Zeng
発行日 2023-08-03 09:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク