要約
紙にアイデアをスケッチするのは比較的簡単ですが、高品質の科学図を作成するのは時間がかかり、困難な場合があります。
さらに、意味情報を保存する形式で保存されていない既存の図を再作成することも同様に複雑です。
この問題に取り組むために、スケッチと既存の図に基づいて科学的な図をセマンティクスを保持する TikZ グラフィックス プログラムとして自動的に合成する新しいマルチモーダル言語モデルである DeTikZify を導入します。
これを達成するために、3 つの新しいデータセットを作成します。DaTikZv2 は、人間が作成した 360,000 を超える TikZ グラフィックスを含む、これまでで最大の TikZ データセットです。
SketchFig は、手描きのスケッチと対応する科学的図形を組み合わせたデータセットです。
MetaFig は、多様な科学的数値と関連するメタデータのコレクションです。
DeTikZify は、SketchFig から学習して合成的に生成されたスケッチとともに、MetaFig と DaTikZv2 でトレーニングします。
また、追加のトレーニングを必要とせずに DeTikZify が出力を繰り返し改良できるようにする MCTS ベースの推論アルゴリズムも導入しました。
自動評価と人間による評価の両方を通じて、DeTikZify が TikZ プログラムの合成において市販の Claude 3 や GPT-4V よりも優れており、MCTS アルゴリズムがそのパフォーマンスを効果的に向上させていることを実証しました。
コード、モデル、データセットは公開されています。
要約(オリジナル)
Creating high-quality scientific figures can be time-consuming and challenging, even though sketching ideas on paper is relatively easy. Furthermore, recreating existing figures that are not stored in formats preserving semantic information is equally complex. To tackle this problem, we introduce DeTikZify, a novel multimodal language model that automatically synthesizes scientific figures as semantics-preserving TikZ graphics programs based on sketches and existing figures. To achieve this, we create three new datasets: DaTikZv2, the largest TikZ dataset to date, containing over 360k human-created TikZ graphics; SketchFig, a dataset that pairs hand-drawn sketches with their corresponding scientific figures; and MetaFig, a collection of diverse scientific figures and associated metadata. We train DeTikZify on MetaFig and DaTikZv2, along with synthetically generated sketches learned from SketchFig. We also introduce an MCTS-based inference algorithm that enables DeTikZify to iteratively refine its outputs without the need for additional training. Through both automatic and human evaluation, we demonstrate that DeTikZify outperforms commercial Claude 3 and GPT-4V in synthesizing TikZ programs, with the MCTS algorithm effectively boosting its performance. We make our code, models, and datasets publicly available.
arxiv情報
著者 | Jonas Belouadi,Simone Paolo Ponzetto,Steffen Eger |
発行日 | 2024-11-06 09:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google