OmniSVG: A Unified Scalable Vector Graphics Generation Model

要約

Scalable Vector Graphics(SVG)は、解像度の独立性と編集可能性のため、グラフィックデザインで広く採用されている重要な画像形式です。
高品質のSVGを生成する研究は、AIGCコミュニティのデザイナーと研究者の両方から継続的に注目を集めています。
ただし、既存のメソッドは、膨大な計算コストで非構造化された出力を生成するか、単純化された構造のモノクロアイコンを生成することに限定されます。
高品質で複雑なSVGを生成するために、エンドツーエンドのマルチモーダルSVG生成のために事前に訓練された視覚言語モデル(VLM)を活用する統一されたフレームワークであるOmnisvgを提案します。
SVGコマンドをパラメーター化してディスクリートトークンに調整することにより、OMNISVGは、複雑なSVG構造の表現力を維持しながら、効率的なトレーニングのために低レベルのジオメトリから構造論理を分離します。
SVG合成の開発をさらに進めるために、200万の豊富な注釈付きSVGアセットを備えたマルチモーダルデータセットであるMMSVG-2Mと、条件付きSVG生成タスクの標準化された評価プロトコルを導入します。
広範な実験では、OmnisVGが既存の方法を上回り、プロのSVG設計ワークフローに統合する可能性があることが示されています。

要約(オリジナル)

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability. The study of generating high-quality SVG has continuously drawn attention from both designers and researchers in the AIGC community. However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. To produce high-quality and complex SVG, we propose OmniSVG, a unified framework that leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal SVG generation. By parameterizing SVG commands and coordinates into discrete tokens, OmniSVG decouples structural logic from low-level geometry for efficient training while maintaining the expressiveness of complex SVG structure. To further advance the development of SVG synthesis, we introduce MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets, along with a standardized evaluation protocol for conditional SVG generation tasks. Extensive experiments show that OmniSVG outperforms existing methods and demonstrates its potential for integration into professional SVG design workflows.

arxiv情報

著者 Yiying Yang,Wei Cheng,Sijin Chen,Xianfang Zeng,Jiaxu Zhang,Liao Wang,Gang Yu,Xingjun Ma,Yu-Gang Jiang
発行日 2025-04-08 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク