SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation

要約

大規模なビジョン言語モデルの最近の進歩により、非常に表現力豊かで多様なベクタースケッチ生成が可能になりました。
ただし、最先端の方法は、脳卒中の配置を決定するために、前処理されたモデルからの繰り返しフィードバックを含む時間のかかる最適化プロセスに依存しています。
その結果、印象的なスケッチを作成しているにもかかわらず、これらの方法は実際のアプリケーションでは制限されています。
この作業では、1秒以内に高品質のスケッチを生成できる画像条件付きベクタースケッチ生成の拡散モデルであるSwiftsketchを紹介します。
Swiftsketchは、ガウス分布からサンプリングされたストローク制御ポイントを徐々に除去することで動作します。
そのトランスデコーダーアーキテクチャは、ベクトル表現の個別の性質を効果的に処理し、ストローク間の固有のグローバル依存関係をキャプチャするように設計されています。
SwiftSketchをトレーニングするために、画像スケッチペアの合成データセットを構築し、既存のスケッチデータセットの制限に対処します。これは、非アーティストによって作成され、プロフェッショナルな品質が欠けていることがよくあります。
これらの合成スケッチを生成するために、ControlSketchを紹介します。これは、深度認識コントロールネットを介して正確な空間制御を組み込むことにより、SDSベースの技術を強化する方法です。
Swiftsketchは、多様な概念全体に一般化され、高い忠実度と自然で視覚的に魅力的なスタイルを組み合わせたスケッチを効率的に作成することを実証します。

要約(オリジナル)

Recent advancements in large vision-language models have enabled highly expressive and diverse vector sketch generation. However, state-of-the-art methods rely on a time-consuming optimization process involving repeated feedback from a pretrained model to determine stroke placement. Consequently, despite producing impressive sketches, these methods are limited in practical applications. In this work, we introduce SwiftSketch, a diffusion model for image-conditioned vector sketch generation that can produce high-quality sketches in less than a second. SwiftSketch operates by progressively denoising stroke control points sampled from a Gaussian distribution. Its transformer-decoder architecture is designed to effectively handle the discrete nature of vector representation and capture the inherent global dependencies between strokes. To train SwiftSketch, we construct a synthetic dataset of image-sketch pairs, addressing the limitations of existing sketch datasets, which are often created by non-artists and lack professional quality. For generating these synthetic sketches, we introduce ControlSketch, a method that enhances SDS-based techniques by incorporating precise spatial control through a depth-aware ControlNet. We demonstrate that SwiftSketch generalizes across diverse concepts, efficiently producing sketches that combine high fidelity with a natural and visually appealing style.

arxiv情報

著者 Ellie Arar,Yarden Frenkel,Daniel Cohen-Or,Ariel Shamir,Yael Vinker
発行日 2025-02-12 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク