TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

要約

生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリケーションになります。
ただし、高い幾何学的精度と編集可能性を達成するには、Tikzのような言語のグラフィックプログラムとして数字を表す必要があり、整列したトレーニングデータ(つまり、キャプション付きのグラフィックプログラム)は依然として不足しています。
一方、大量の整理されていないグラフィックプログラムとキャプション付きラスター画像は、より簡単に利用できます。
これらの異なるデータソースを、画像表現を中間ブリッジとして使用して、テキスト理解からグラフィックスプログラムの生成を切り離すTikzeroを提示します。
グラフィックプログラムとキャプション付き画像に関する独立したトレーニングを可能にし、推論中にゼロショットテキスト誘導グラフィックプログラムの合成を可能にします。
私たちの方法は、キャプションに並べられたグラフィックプログラムでのみ動作できるベースラインを大幅に上回ることを示しています。
さらに、キャプションに合わせたグラフィックプログラムを補完的なトレーニング信号として活用する場合、TikzeroはGPT-4Oなどの商用システムを含むはるかに大きなモデルのパフォーマンスを一致させるか、それを超えます。
コード、データセット、および選択モデルは公開されています。

要約(オリジナル)

With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

arxiv情報

著者 Jonas Belouadi,Eddy Ilg,Margret Keuper,Hideki Tanaka,Masao Utiyama,Raj Dabre,Steffen Eger,Simone Paolo Ponzetto
発行日 2025-03-19 12:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク