Style Customization of Text-to-Vector Generation with Image Diffusion Priors

要約

スケーラブルなベクトルグラフィックス(SVG)は、解像度の独立性とよく組織化された層構造のために、デザイナーに非常に好まれています。
既存のテキストからベクトル(T2V)生成方法は、テキストプロンプトからSVGを作成できますが、実際のアプリケーションで重要なニーズを見落とすことがよくあります。スタイルのカスタマイズは、一貫した視覚的外観とコヒーレントな美学を持つベクトルグラフィックスのコレクションを生成するために不可欠です。
スタイルのカスタマイズのための既存のT2Vメソッドを拡張すると、特定の課題がもたらされます。
最適化ベースのT2Vモデルは、カスタマイズのためにテキストツーイメージ(T2I)モデルの事前に使用できますが、構造の規則性の維持に苦労しています。
一方、フィードフォワードT2Vモデルは、構造的な規則性を確保できますが、SVGトレーニングデータが限られているため、コンテンツとスタイルを解き放つのが困難に遭遇します。
これらの課題に対処するために、SVG生成向けの新しい2段階スタイルのカスタマイズパイプラインを提案し、フィードフォワードT2VモデルとT2Iイメージプライアーの両方の利点を利用します。
最初の段階では、パスレベルの表現を備えたT2V拡散モデルをトレーニングして、多様な表現力豊かな機能を維持しながらSVGの構造的規則性を確保します。
第2段階では、カスタマイズされたT2Iモデルを蒸留することにより、T2V拡散モデルをさまざまなスタイルにカスタマイズします。
これらの手法を統合することにより、パイプラインは、効率的なフィードフォワード方法でテキストプロンプトに基づいて、カスタムスタイルで高品質で多様なSVGを生成できます。
私たちの方法の有効性は、広範な実験を通じて検証されています。
プロジェクトページはhttps://customsvg.github.ioです。

要約(オリジナル)

Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.

arxiv情報

著者 Peiying Zhang,Nanxuan Zhao,Jing Liao
発行日 2025-05-15 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク