StarVector: Generating Scalable Vector Graphics Code from Images and Text

要約

スケーラブル・ベクター・グラフィックス(SVG)は、そのスケーラビリティと多用途性により、現代の画像レンダリングに不可欠である。これまでのSVG生成手法は曲線ベースのベクトル化に重点を置いており、意味的な理解に欠け、しばしばアーティファクトを生成し、パス曲線以外のSVGプリミティブと格闘してきた。これらの問題に対処するために、我々はSVG生成のためのマルチモーダルな大規模言語モデルであるStarVectorを紹介する。StarVectorは、画像のセマンティクスを理解し、コンパクトで正確な出力のためにSVGプリミティブを使用することで、画像のベクトル化を実行する。従来の方法とは異なり、StarVectorはSVGコード空間で直接動作し、正確なSVGプリミティブを適用するために視覚的理解を活用する。StarVectorを訓練するために、ベクトル化タスクの汎化と楕円、多角形、テキストなどのプリミティブの正確な使用を可能にする2Mサンプルの多様なデータセットであるSVG-Stackを作成する。SVG評価における課題に取り組み、MSEのようなピクセルベースのメトリクスではベクターグラフィックスのユニークな性質を捉えることができないことを示す。10個のデータセットと3つのタスクにまたがるベンチマークであるSVG-Benchを紹介する:画像からSVG、テキストからSVG生成、ダイアグラム生成です。このセットアップを使用することで、StarVectorは最先端の性能を達成し、よりコンパクトでセマンティックリッチなSVGを生成します。

要約(オリジナル)

Scalable Vector Graphics (SVGs) are vital for modern image rendering due to their scalability and versatility. Previous SVG generation methods have focused on curve-based vectorization, lacking semantic understanding, often producing artifacts, and struggling with SVG primitives beyond path curves. To address these issues, we introduce StarVector, a multimodal large language model for SVG generation. It performs image vectorization by understanding image semantics and using SVG primitives for compact, precise outputs. Unlike traditional methods, StarVector works directly in the SVG code space, leveraging visual understanding to apply accurate SVG primitives. To train StarVector, we create SVG-Stack, a diverse dataset of 2M samples that enables generalization across vectorization tasks and precise use of primitives like ellipses, polygons, and text. We address challenges in SVG evaluation, showing that pixel-based metrics like MSE fail to capture the unique qualities of vector graphics. We introduce SVG-Bench, a benchmark across 10 datasets, and 3 tasks: Image-to-SVG, Text-to-SVG generation, and diagram generation. Using this setup, StarVector achieves state-of-the-art performance, producing more compact and semantically rich SVGs.

arxiv情報

著者 Juan A. Rodriguez,Abhay Puri,Shubham Agarwal,Issam H. Laradji,Pau Rodriguez,Sai Rajeswar,David Vazquez,Christopher Pal,Marco Pedersoli
発行日 2024-12-04 18:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク