ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities

要約

リファレンスベースのスケッチカラー化方法は、アニメーション制作業界での潜在的なアプリケーションのために、大きな注目を集めています。
ただし、ほとんどの既存の方法は、意味的および空間的に適切に整合されたスケッチ、参照、およびグラウンドトゥルースの画像トリプレットで訓練されていますが、実際の参照とスケッチは多くの場合、かなりの不整合を示します。
トレーニングと推論の間のデータ分布のこの不一致は、過剰適合につながり、その結果、空間的アーティファクトと全体的な色素化品質の大幅な分解が生じ、一般的な目的のための現在の方法の潜在的なアプリケーションが制限されます。
この制限に対処するために、参照からスケッチへの情報転送を促進する潜在的な表現として定義された\ textBf {Carrier}の詳細な分析を実施します。
この分析に基づいて、キャリアを動的に適応させる新しいワークフローを提案し、色付けの明確な側面を最適化します。
具体的には、空間的に配置されたアーティファクトの場合、空間マスクを使用した分割交差計測メカニズムを導入し、拡散プロセス内で領域固有の参照注入を可能にします。
スケッチのセマンティックネグレクトを緩和するために、専用の背景とスタイルのエンコーダーを使用して、潜在的な特徴空間で詳細な参照情報を転送し、空間制御とより豊富なディテール合成を実現します。
さらに、前景の統合とバックグラウンド生成を改善するための前処理ステップとして、キャラクターマスクの合併とバックグラウンド漂白を提案します。
ユーザー調査を含む広範な定性的および定量的評価は、既存のアプローチと比較して、提案された方法の優れたパフォーマンスを示しています。
アブレーション研究は、提案された各コンポーネントの有効性をさらに検証します。

要約(オリジナル)

Reference-based sketch colorization methods have garnered significant attention due to their potential applications in the animation production industry. However, most existing methods are trained with image triplets of sketch, reference, and ground truth that are semantically and spatially well-aligned, while real-world references and sketches often exhibit substantial misalignment. This mismatch in data distribution between training and inference leads to overfitting, consequently resulting in spatial artifacts and significant degradation in overall colorization quality, limiting potential applications of current methods for general purposes. To address this limitation, we conduct an in-depth analysis of the \textbf{carrier}, defined as the latent representation facilitating information transfer from reference to sketch. Based on this analysis, we propose a novel workflow that dynamically adapts the carrier to optimize distinct aspects of colorization. Specifically, for spatially misaligned artifacts, we introduce a split cross-attention mechanism with spatial masks, enabling region-specific reference injection within the diffusion process. To mitigate semantic neglect of sketches, we employ dedicated background and style encoders to transfer detailed reference information in the latent feature space, achieving enhanced spatial control and richer detail synthesis. Furthermore, we propose character-mask merging and background bleaching as preprocessing steps to improve foreground-background integration and background generation. Extensive qualitative and quantitative evaluations, including a user study, demonstrate the superior performance of our proposed method compared to existing approaches. An ablation study further validates the efficacy of each proposed component.

arxiv情報

著者 Dingkun Yan,Xinrui Wang,Yusuke Iwasawa,Yutaka Matsuo,Suguru Saito,Jiaxian Guo
発行日 2025-04-09 13:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク