KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models

要約

拡散モデルの最近の進歩により、テキストから画像への (T2I) 生成が大幅に改善されましたが、きめの細かい精度と高レベルの制御のバランスを取るのに苦労することがよくあります。
ControlNet や T2I-Adapter などのメソッドは、熟練したアーティストによるスケッチを追跡するのに優れていますが、過度に厳格になる傾向があり、初心者ユーザーのスケッチに意図しない欠陥が再現されてしまいます。
一方、スケッチベースの抽象化フレームワークなどの粗粒度の手法は、よりアクセスしやすい入力処理を提供しますが、詳細で専門的な使用に必要な正確な制御が不足しています。
これらの制限に対処するために、さまざまなレベルのスケッチの複雑さとユーザー スキルにシームレスに適応することで、スケッチ ベースの画像生成を民主化するデュアル パスウェイ フレームワークである KnobGen を提案します。
KnobGen は、高レベルのセマンティクスには粗粒度コントローラー (CGC) モジュールを使用し、詳細な調整には細粒度コントローラー (FGC) モジュールを使用します。
これら 2 つのモジュールの相対的な強度は、ユーザーの特定のニーズに合わせてノブ推論メカニズムを通じて調整できます。
これらのメカニズムにより、KnobGen は初心者のスケッチと熟練したアーティストが描いたスケッチの両方から柔軟に画像を生成できます。
これにより、MultiGen-20M データセットと新しく収集されたスケッチ データセットで明らかなように、画像の自然な外観を維持しながら、最終出力の制御が維持されます。

要約(オリジナル)

Recent advances in diffusion models have significantly improved text-to-image (T2I) generation, but they often struggle to balance fine-grained precision with high-level control. Methods like ControlNet and T2I-Adapter excel at following sketches by seasoned artists but tend to be overly rigid, replicating unintentional flaws in sketches from novice users. Meanwhile, coarse-grained methods, such as sketch-based abstraction frameworks, offer more accessible input handling but lack the precise control needed for detailed, professional use. To address these limitations, we propose KnobGen, a dual-pathway framework that democratizes sketch-based image generation by seamlessly adapting to varying levels of sketch complexity and user skill. KnobGen uses a Coarse-Grained Controller (CGC) module for high-level semantics and a Fine-Grained Controller (FGC) module for detailed refinement. The relative strength of these two modules can be adjusted through our knob inference mechanism to align with the user’s specific needs. These mechanisms ensure that KnobGen can flexibly generate images from both novice sketches and those drawn by seasoned artists. This maintains control over the final output while preserving the natural appearance of the image, as evidenced on the MultiGen-20M dataset and a newly collected sketch dataset.

arxiv情報

著者 Pouyan Navard,Amin Karimi Monsefi,Mengxi Zhou,Wei-Lun Chao,Alper Yilmaz,Rajiv Ramnath
発行日 2024-10-02 14:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク