AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with TikZ

要約

テキストからビットマップ グラフィックを生成することはかなりの注目を集めていますが、科学的な図ではベクトル グラフィックが好まれることがよくあります。
ベクトル グラフィックスは通常、低レベルのグラフィックス プリミティブを使用してエンコードされるため、ベクトル グラフィックスを直接生成することは困難です。
これに対処するために、我々は、ベクトル グラフィックスにコンパイルできるよく知られた抽象グラフィックス言語である TikZ を科学数値の中間表現として使用することを提案します。
TikZ は人間指向の高レベルのコマンドを提供するため、あらゆる大規模な言語モデルでの条件付き言語モデリングを容易にします。
この目的を達成するために、キャプション付きの 120,000 個の TikZ 描画で構成される初の大規模 TikZ データセットである DaTikZ を導入します。
DaTikZ 上で LLaMA を微調整するだけでなく、マルチモーダル CLIP 埋め込みで LLaMA を強化する新しいモデル CLiMA も微調整します。
人間による評価と自動評価の両方において、CLiMA と LLaMA は、人間が作成した図との類似性の点で市販の GPT-4 および Claude 2 を上回り、CLiMA によりテキストと画像の位置合わせがさらに向上します。
私たちの詳細な分析は、すべてのモデルがよく一般化されており、暗記の影響を受けにくいことを示しています。
ただし、GPT-4 と Claude 2 は、人間とモデルの両方に比べて、より単純化された図を生成する傾向があります。
私たちは、フレームワーク AutomaTikZ をモデルの重みとデータセットとともに一般公開しています。

要約(オリジナル)

Generating bitmap graphics from text has gained considerable attention, yet for scientific figures, vector graphics are often preferred. Given that vector graphics are typically encoded using low-level graphics primitives, generating them directly is difficult. To address this, we propose the use of TikZ, a well-known abstract graphics language that can be compiled to vector graphics, as an intermediate representation of scientific figures. TikZ offers human-oriented, high-level commands, thereby facilitating conditional language modeling with any large language model. To this end, we introduce DaTikZ, the first large-scale TikZ dataset consisting of 120k TikZ drawings aligned with captions. We fine-tune LLaMA on DaTikZ, as well as our new model CLiMA, which augments LLaMA with multimodal CLIP embeddings. In both human and automatic evaluation, CLiMA and LLaMA outperform commercial GPT-4 and Claude 2 in terms of similarity to human-created figures, with CLiMA additionally improving text-image alignment. Our detailed analysis shows that all models generalize well and are not susceptible to memorization. GPT-4 and Claude 2, however, tend to generate more simplistic figures compared to both humans and our models. We make our framework, AutomaTikZ, along with model weights and datasets, publicly available.

arxiv情報

著者 Jonas Belouadi,Anne Lauscher,Steffen Eger
発行日 2024-01-23 15:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク