DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models

要約

主に画像を使ってトレーニングされたにもかかわらず、事前トレーニングされた拡散モデルがスケッチ合成を導く上で素晴らしい力を発揮することがわかりました。
この論文では、自然言語入力を使用して \textit{ベクトル化された} フリーハンド スケッチを作成する革新的なアルゴリズムである DiffSketcher を紹介します。
DiffSketcher は、事前にトレーニングされたテキストから画像への拡散モデルに基づいて開発されています。
スコア蒸留サンプリング (SDS) 損失の拡張バージョンを使用してベジエ曲線のセットを直接最適化することでタスクを実行します。これにより、パラメトリック ベクトル化スケッチ ジェネレーターを最適化するための事前学習としてラスター レベルの拡散モデルを使用できるようになります。

さらに、生成プロセスを高速化するために効果的なストローク初期化のために拡散モデルに埋め込まれたアテンション マップを調査します。
生成されたスケッチは、描かれた主題の認識可能性、基礎となる構造、および重要な視覚的詳細を維持しながら、複数のレベルの抽象化を示します。
私たちの実験では、DiffSketcher が以前の作業よりも優れた品質を達成していることがわかりました。
DiffSketcher のコードとデモは、https://ximinng.github.io/DiffSketcher-project/ にあります。

要約(オリジナル)

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates \textit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of B\’ezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/.

arxiv情報

著者 Ximing Xing,Chuang Wang,Haitao Zhou,Jing Zhang,Qian Yu,Dong Xu
発行日 2023-10-26 15:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク