要約
タイトル:IconShop:自己回帰トランスフォーマーを使用したテキストベースのベクターアイコン合成
要約:この論文では、SVGが人気のあるベクター画像フォーマットであるという背景から、それを自分で作成することが難しいという課題を持つユーザーに対する解決策として、テキストに基づくベクターアイコン合成方法に焦点を当てている。過去には、テキストからラスタ画像を介してベクター画像を合成する方法や、言語モデルの「零ショット」機能を用いた言語ベースのアイコン合成方法があったが、これらの方法には品質、多様性、柔軟性、速度などの制限があるとされる。本研究では、SVGパスとテキストの説明を一意にデコード可能なコマンドシーケンスに変換し、自己回帰トランスフォーマーによるアイコン合成を提案している。大規模なアイコンデータセットに対して、次のトークンを予測するための標準的なトレーニングを行い、提案手法が既存の画像ベースおよび言語ベースの方法に比べて、FIDおよびCLIPスコアを使用した量的および視覚的検査による品質と性能において優れていることを実証している。また、生成の多様性についても客観的に評価し、アイコンの埋め込みや複合アイコン合成などの柔軟な操作にも応用可能であることを示している。
要点:
– SVGは人気のあるベクター画像フォーマットだが、ユーザーが自分で作成することは難しい。
– 過去にはテキストからラスタ画像を介してベクター画像を合成する方法や、言語モデルの「零ショット」機能を用いた言語ベースのアイコン合成方法があったが、制限がある。
– この研究では、SVGパスとテキストの説明を一意にデコード可能なコマンドシーケンスに変換し、自己回帰トランスフォーマーによるアイコン合成を提案している。
– 提案手法は既存のアイコン合成方法に比べて、品質と性能において優れていることを量的および視覚的検査によって実証している。
– 生成の多様性についても客観的に評価し、アイコンの埋め込みや複合アイコン合成などの柔軟な操作にも応用可能であることを示している。
要約(オリジナル)
Scalable Vector Graphics (SVG) is a prevalent vector image format with good support for interactivity and animation. Despite such appealing characteristics, it is generally challenging for users to create their own SVG content because of the long learning curve to comprehend SVG grammars or acquaint themselves with professional editing software. Recent progress in text-to-image generation has inspired researchers to explore image-based icon synthesis (i.e., text -> raster image -> vector image) via differential rendering and language-based icon synthesis (i.e., text -> vector image script) via the ‘zero-shot’ capabilities of large language models. However, these methods may suffer from several limitations regarding generation quality, diversity, flexibility, and speed. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using an autoregressive transformer. The key to success of our approach is to sequentialize and tokenize the SVG paths (and textual descriptions) into a uniquely decodable command sequence. With such a single sequence as input, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling various icon synthesis and manipulation tasks. Through standard training to predict the next token on a large-scale icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis performance than existing image-based and language-based methods both quantitatively (using the FID and CLIP score) and qualitatively (through visual inspection). Meanwhile, we observe a dramatic improvement in generation diversity, which is supported by objective measures (Uniqueness and Novelty). More importantly, we demonstrate the flexibility of IconShop with two novel icon manipulation tasks – text-guided icon infilling, and text-combined icon synthesis.
arxiv情報
著者 | Ronghuan Wu,Wanchao Su,Kede Ma,Jing Liao |
発行日 | 2023-04-27 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI