要約
本稿では、高品質なスケッチ生成のための新しいアルゴリズムである VQ-SGen を紹介します。
最近のアプローチでは、タスクを全体または部分ごとのピクセルベースの生成として組み立てることが多く、近位ストロークと遠位ストロークの両方の形状や空間的位置など、個々のストローク間の本質的および文脈上の関係が無視されています。
これらの制限を克服するために、スケッチ内の各ストロークをエンティティとして扱い、きめの細かいスケッチを生成するためにベクトル量子化 (VQ) ストローク表現を導入することを提案します。
私たちの方法は 2 段階のフレームワークに従います。最初の段階では、各ストロークの形状と位置情報を分離して、VQ 表現がストローク形状の学習を優先するようにします。
第 2 段階では、正確でコンパクトな表現を自動デコード Transformer に送り、ストロークのセマンティクス、位置、形状を生成プロセスに組み込みます。
トークン化されたストローク表現を利用することで、私たちのアプローチは忠実度の高いストロークを生成し、条件付き生成やセマンティックを意識したストローク編集などの新しいアプリケーションを容易にします。
包括的な実験により、私たちの方法が既存の最先端技術を超えていることが実証され、その有効性が強調されています。
コードとモデルは、公開と同時に公開されます。
要約(オリジナル)
This paper presents VQ-SGen, a novel algorithm for high-quality sketch generation. Recent approaches have often framed the task as pixel-based generation either as a whole or part-by-part, neglecting the intrinsic and contextual relationships among individual strokes, such as the shape and spatial positioning of both proximal and distant strokes. To overcome these limitations, we propose treating each stroke within a sketch as an entity and introducing a vector-quantized (VQ) stroke representation for fine-grained sketch generation. Our method follows a two-stage framework – in the first stage, we decouple each stroke’s shape and location information to ensure the VQ representation prioritizes stroke shape learning. In the second stage, we feed the precise and compact representation into an auto-decoding Transformer to incorporate stroke semantics, positions, and shapes into the generation process. By utilizing tokenized stroke representation, our approach generates strokes with high fidelity and facilitates novel applications, such as conditional generation and semantic-aware stroke editing. Comprehensive experiments demonstrate our method surpasses existing state-of-the-art techniques, underscoring its effectiveness. The code and model will be made publicly available upon publication.
arxiv情報
著者 | Jiawei Wang,Zhiming Cui,Changjian Li |
発行日 | 2024-11-25 14:51:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google