Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior

要約

グレースケール画像をカラー化すると、魅力的な視覚体験が得られます。
既存の自動カラー化方法では、不正確なセマンティック カラーや不飽和カラーが原因で、満足のいく結果を生成できないことがよくあります。
この研究では、これらの課題を克服するための自動カラー化パイプラインを提案します。
私たちは、もっともらしいセマンティクスで色を合成する前に、拡散の驚異的な生成能力を活用します。
事前の拡散によって導入されたアーティファクトを克服するために、輝度条件付きガイダンスを適用します。
さらに、モデルが画像コンテンツを理解し、飽和した色を提供できるように、マルチモーダルな高レベルのセマンティック事前確率を採用しています。
さらに、輝度を意識したデコーダーは、細部を復元し、全体的な視覚品質を向上させるように設計されています。
提案されたパイプラインは、妥当なセマンティクスを維持しながら飽和色を合成します。
実験によれば、私たちの提案した方法は多様性と忠実性の両方を考慮しており、知覚的なリアリズムの点で以前の方法を上回り、人間の好みのほとんどを獲得していることが示されています。

要約(オリジナル)

Colorizing grayscale images offers an engaging visual experience. Existing automatic colorization methods often fail to generate satisfactory results due to incorrect semantic colors and unsaturated colors. In this work, we propose an automatic colorization pipeline to overcome these challenges. We leverage the extraordinary generative ability of the diffusion prior to synthesize color with plausible semantics. To overcome the artifacts introduced by the diffusion prior, we apply the luminance conditional guidance. Moreover, we adopt multimodal high-level semantic priors to help the model understand the image content and deliver saturated colors. Besides, a luminance-aware decoder is designed to restore details and enhance overall visual quality. The proposed pipeline synthesizes saturated colors while maintaining plausible semantics. Experiments indicate that our proposed method considers both diversity and fidelity, surpassing previous methods in terms of perceptual realism and gain most human preference.

arxiv情報

著者 Han Wang,Xinning Chai,Yiwen Wang,Yuhong Zhang,Rong Xie,Li Song
発行日 2024-04-25 15:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク