要約
コミック生産業界では、高精度、効率、コンテキストの一貫性、柔軟な制御を備えた参照ベースのラインアートの色付けが必要です。
コミックページには、多くの場合、多様なキャラクター、オブジェクト、背景が含まれているため、着色プロセスが複雑になります。
画像生成のための拡散モデルの進歩にもかかわらず、ラインアートの色付けへの応用は限られたままであり、広範な参照画像、時間のかかる推論、柔軟な制御に関連する課題に直面しています。
ラインアートの色付けの品質に関する広範なコンテキストイメージガイダンスの必要性を調査します。
これらの課題に対処するために、色のヒントをサポートし、低遅延を維持しながら200を超える参照画像を利用する効率的で多用途の方法であるCobraを紹介します。
Cobraの中心は、因果的なスパースDITアーキテクチャであり、特別に設計された位置エンコーディング、因果的スパースの注意、キー価値のキャッシュを活用して、長いコンテキスト参照を効果的に管理し、カラーアイデンティティの一貫性を確保します。
結果は、COBRAが広範な文脈的参照を通じて正確なラインアートの色付けを達成し、推論の速度と相互作用を大幅に向上させ、それによって重要な産業的要求を満たすことを示しています。
プロジェクトページでコードとモデルをリリースします:https://zhuang2002.github.io/cobra/。
要約(オリジナル)
The comic production industry requires reference-based line art colorization with high accuracy, efficiency, contextual consistency, and flexible control. A comic page often involves diverse characters, objects, and backgrounds, which complicates the coloring process. Despite advancements in diffusion models for image generation, their application in line art colorization remains limited, facing challenges related to handling extensive reference images, time-consuming inference, and flexible control. We investigate the necessity of extensive contextual image guidance on the quality of line art colorization. To address these challenges, we introduce Cobra, an efficient and versatile method that supports color hints and utilizes over 200 reference images while maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture, which leverages specially designed positional encodings, causal sparse attention, and Key-Value Cache to effectively manage long-context references and ensure color identity consistency. Results demonstrate that Cobra achieves accurate line art colorization through extensive contextual reference, significantly enhancing inference speed and interactivity, thereby meeting critical industrial demands. We release our codes and models on our project page: https://zhuang2002.github.io/Cobra/.
arxiv情報
著者 | Junhao Zhuang,Lingen Li,Xuan Ju,Zhaoyang Zhang,Chun Yuan,Ying Shan |
発行日 | 2025-04-16 16:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google