Control Color: Multimodal Diffusion-based Interactive Image Colorization

要約

多数の色付け方法が存在するにもかかわらず、ユーザー操作の欠如、局所的な色付けの柔軟性の低さ、不自然な演色、不十分な色のバリエーション、色のオーバーフローなど、いくつかの制限が依然として存在します。
これらの問題を解決するために、事前にトレーニングされた安定拡散 (SD) モデルを活用するマルチモーダルな色付け手法であるコントロール カラー (CtrlColor) を導入し、高度に制御可能なインタラクティブな画像の色付けで有望な機能を提供します。
いくつかの拡散ベースの方法が提案されていますが、複数のモダリティでカラー化をサポートすることは依然として重要です。
この研究では、無条件および条件付きの画像カラー化 (テキスト プロンプト、ストローク、見本) の両方に取り組み、統一されたフレームワーク内でカラー オーバーフローと不正確なカラーに対処することを目的としています。
具体的には、ユーザーストロークをエンコードして正確なローカルカラー操作を可能にし、見本と同様のカラー分布を制約する実用的な方法を採用する効果的な方法を紹介します。
条件としてテキスト プロンプトを受け入れることとは別に、これらの設計により、アプローチに多用途性が追加されます。
また、セルフアテンションに基づいた新しいモジュールと、カラーオーバーフローと不正確なカラーリングという長年の問題に対処するコンテンツガイド型の変形可能なオートエンコーダーも導入します。
広範な比較により、私たちのモデルが最先端の画像カラー化手法よりも定性的および定量的に優れていることが示されています。

要約(オリジナル)

Despite the existence of numerous colorization methods, several limitations still exist, such as lack of user interaction, inflexibility in local colorization, unnatural color rendering, insufficient color variation, and color overflow. To solve these issues, we introduce Control Color (CtrlColor), a multi-modal colorization method that leverages the pre-trained Stable Diffusion (SD) model, offering promising capabilities in highly controllable interactive image colorization. While several diffusion-based methods have been proposed, supporting colorization in multiple modalities remains non-trivial. In this study, we aim to tackle both unconditional and conditional image colorization (text prompts, strokes, exemplars) and address color overflow and incorrect color within a unified framework. Specifically, we present an effective way to encode user strokes to enable precise local color manipulation and employ a practical way to constrain the color distribution similar to exemplars. Apart from accepting text prompts as conditions, these designs add versatility to our approach. We also introduce a novel module based on self-attention and a content-guided deformable autoencoder to address the long-standing issues of color overflow and inaccurate coloring. Extensive comparisons show that our model outperforms state-of-the-art image colorization methods both qualitatively and quantitatively.

arxiv情報

著者 Zhexin Liang,Zhaochen Li,Shangchen Zhou,Chongyi Li,Chen Change Loy
発行日 2024-02-16 17:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク