Improved Diffusion-based Image Colorization via Piggybacked Models

要約

タイトル: 「ピギーバックモデルによる改良された拡散ベースの画像カラリゼーション」

要約:画像カラリゼーションは数十年にわたってコミュニティの研究対象となっていますが、グレースケール画像をカラーリングするためには、色の人間らしいグローバルな理解が不十分であるため、既存の方法はまだ満足のいくカラリゼーション結果を提供するのに苦労しています。最近、大規模なテキストからイメージへのモデル(T2Iモデル)が探求されており、テキストが画像内の意味的オブジェクトのグローバル制御を提供する場所で、テキストプロンプトからセマンティック情報を転送するために活用されています。本研究では、既存の強力なT2I拡散モデルにピギーバックするカラリゼーションモデルを紹介します。私たちの主なアイデアは、事前にトレーニングされたT2I拡散モデルでの色の優先知識を利用して現実的で多様なカラリゼーションを実現することです。拡散ガイダーは、潜在的な拡散モデルの事前にトレーニングされた重みを組み込み、グレースケール入力の視覚的セマンティクスに合う潜在的な色の優先順位を出力するように設計されています。明度に敏感なVQVAEを使用して、与えられたグレースケール画像と完全に一致するように、カラリゼーションされた結果を生成します。また、追加の入力(ユーザーヒントやテキストなど)を使用して、条件付きのカラリゼーションも実現できます。幅広い実験により、私たちの方法が知覚品質において最先端の性能を実現していることが示されています。

要点:

– 画像カラリゼーションの問題は、グレースケール画像に人間的なグローバルな色の理解が不十分なために、現在の方法はまだ満足のいく結果を提供するのに苦労している。
– ピギーバックモデルは、既存の強力なT2I拡散モデルに依存してさらに改善されたカラリゼーションモデルを紹介している。
– 拡散ガイダーは、潜在的な色の優先順位を出力するために、トレーニングされたT2I拡散モデルの重みを利用するために設計されている。
– VQVAEを使用して、与えられたグレースケール画像と完全に一致するように、カラリゼーションされた結果を生成する。
– 追加の入力(ユーザーヒントやテキストなど)を使用して、条件付きのカラリゼーションも実現できる。
– 幅広い実験により、提案された方法が知覚品質において最先端の性能を実現していることが示されている。

要約(オリジナル)

Image colorization has been attracting the research interests of the community for decades. However, existing methods still struggle to provide satisfactory colorized results given grayscale images due to a lack of human-like global understanding of colors. Recently, large-scale Text-to-Image (T2I) models have been exploited to transfer the semantic information from the text prompts to the image domain, where text provides a global control for semantic objects in the image. In this work, we introduce a colorization model piggybacking on the existing powerful T2I diffusion model. Our key idea is to exploit the color prior knowledge in the pre-trained T2I diffusion model for realistic and diverse colorization. A diffusion guider is designed to incorporate the pre-trained weights of the latent diffusion model to output a latent color prior that conforms to the visual semantics of the grayscale input. A lightness-aware VQVAE will then generate the colorized result with pixel-perfect alignment to the given grayscale image. Our model can also achieve conditional colorization with additional inputs (e.g. user hints and texts). Extensive experiments show that our method achieves state-of-the-art performance in terms of perceptual quality.

arxiv情報

著者 Hanyuan Liu,Jinbo Xing,Minshan Xie,Chengze Li,Tien-Tsin Wong
発行日 2023-04-21 16:23:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.GR パーマリンク