IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers


スケーラブル ベクター グラフィックス (SVG) は、インタラクティブ性とアニメーションを適切にサポートする一般的なベクター画像形式です。
その魅力的な特性にもかかわらず、カスタム SVG コンテンツの作成は、SVG の文法を理解したり、プロの編集ソフトウェアに慣れるために急な学習曲線が必要となるため、ユーザーにとって困難な場合があります。
テキストから画像への生成における最近の進歩により、研究者は、テキストから画像への生成モデルと画像ベクトル化を組み合わせた画像ベースの方法 (つまり、テキスト -> ラスター イメージ -> ベクター グラフィックス) または言語を使用したベクトル グラフィックス合成を検討するようになりました。
事前トレーニングされた大規模な言語モデルによるベースのメソッド (つまり、テキスト -> ベクター グラフィックス スクリプト)。
この論文では、自己回帰変換器を使用したテキストガイドによるベクトルアイコン合成手法である IconShop を紹介します。
私たちのアプローチを成功させる鍵は、SVG パス (およびガイダンスとしてのテキストの説明) を、独自にデコード可能なトークン シーケンスに連続化してトークン化することです。
テクスチャ記述を伴う大規模なベクトル アイコン データセット上の次のトークンを予測する標準的なトレーニングを通じて、提案された IconShop は、量的および質的に既存の画像ベースおよび言語ベースの方法よりも優れたアイコン合成機能を一貫して示します。
さらに重要なのは、アイコンの編集、アイコンの補間、アイコンの意味の組み合わせ、アイコン デザインの自動提案など、複数の新しいアイコン合成タスクを使用して IconShop の柔軟性を実証していることです。


Scalable Vector Graphics (SVG) is a popular vector image format that offers good support for interactivity and animation. Despite its appealing characteristics, creating custom SVG content can be challenging for users due to the steep learning curve required to understand SVG grammars or get familiar with professional editing software. Recent advancements in text-to-image generation have inspired researchers to explore vector graphics synthesis using either image-based methods (i.e., text -> raster image -> vector graphics) combining text-to-image generation models with image vectorization, or language-based methods (i.e., text -> vector graphics script) through pretrained large language models. However, these methods still suffer from limitations in terms of generation quality, diversity, and flexibility. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using autoregressive transformers. The key to success of our approach is to sequentialize and tokenize SVG paths (and textual descriptions as guidance) into a uniquely decodable token sequence. With that, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling both unconditional and text-conditioned icon synthesis. Through standard training to predict the next token on a large-scale vector icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis capability than existing image-based and language-based methods both quantitatively and qualitatively. Meanwhile, we observe a dramatic improvement in generation diversity, which is validated by the objective Uniqueness and Novelty measures. More importantly, we demonstrate the flexibility of IconShop with multiple novel icon synthesis tasks, including icon editing, icon interpolation, icon semantic combination, and icon design auto-suggestion.


著者 Ronghuan Wu,Wanchao Su,Kede Ma,Jing Liao
発行日 2023-05-29 14:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク