Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification

要約

モデル編集は、望ましい変更を実現するための解釈可能な戦略を使用して、ニューラルモデルのパラメーターの小さなサブセットを選択的に更新することを目的としています。
大規模な言語モデル(LLM)に適応するために、計算コストを大幅に削減できます。
LLMS内の重要なコンポーネントを正確にターゲットにする能力を考えると、モデルの編集は、効率的な微調整アプリケーションの大きな可能性を示しています。
この作業では、モデル編集を調査して、LLMを適応させてアスペクトベースのセンチメント分類を解決するための効率的な方法を提供します。
因果的介入を通じて、モデルの予測にはどのニューロンの隠れた状態が不可欠であるかを追跡して決定します。
LLMの各コンポーネントで介入と修復を実行することにより、アスペクトベースのセンチメント分類に関するこれらのコンポーネントの重要性を特定します。
私たちの調査結果は、特定のアスペクトワードの感情極性を検出するためには、中層表現の明確なセットが不可欠であることを明らかにしています。
これらの洞察を活用して、LLMのこれらの重要な部分のみに焦点を当てたモデル編集アプローチを開発し、LLMを適応させるためのより効率的な方法につながります。
我々の領域およびドメイン外の実験は、このアプローチが、より効率的で解釈可能な微調整戦略を強調している、現在最も強力な方法と比較して、現在最も強力な方法と比較して競争結果を達成することを示しています。

要約(オリジナル)

Model editing aims at selectively updating a small subset of a neural model’s parameters with an interpretable strategy to achieve desired modifications. It can significantly reduce computational costs to adapt to large language models (LLMs). Given its ability to precisely target critical components within LLMs, model editing shows great potential for efficient fine-tuning applications. In this work, we investigate model editing to serve an efficient method for adapting LLMs to solve aspect-based sentiment classification. Through causal interventions, we trace and determine which neuron hidden states are essential for the prediction of the model. By performing interventions and restorations on each component of an LLM, we identify the importance of these components for aspect-based sentiment classification. Our findings reveal that a distinct set of mid-layer representations is essential for detecting the sentiment polarity of given aspect words. Leveraging these insights, we develop a model editing approach that focuses exclusively on these critical parts of the LLM, leading to a more efficient method for adapting LLMs. Our in-domain and out-of-domain experiments demonstrate that this approach achieves competitive results compared to the currently strongest methods with significantly fewer trainable parameters, highlighting a more efficient and interpretable fine-tuning strategy.

arxiv情報

著者 Shichen Li,Zhongqing Wang,Zheyu Zhao,Yue Zhang,Peifeng Li
発行日 2025-03-19 11:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification はコメントを受け付けていません

Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents

要約

テキストからの関係抽出の方法は、リコールが限られているため、主に高精度に焦点を当てています。
ただし、特定のサブジェクトと特定の関係にあるオブジェクトエンティティの長いリストを作成するには、高いリコールが重要です。
関連するオブジェクトのキューは、長いテキストの多くの文章に広がることができます。
これは、長いテキストから長いリストを抽出するという課題をもたらします。
2つの段階で問題に取り組むL3Xメソッドを提示します。(1)検索の増強のための賢明なテクニックを使用した大規模な言語モデル(LLM)を使用したリコール指向の生成、および(2)候補を検証または剪定する精度指向の精査。
L3Xメソッドは、LLMのみの世代をかなりのマージンよりも優れています。

要約(オリジナル)

Methods for relation extraction from text mostly focus on high precision, at the cost of limited recall. High recall is crucial, though, to populate long lists of object entities that stand in a specific relation with a given subject. Cues for relevant objects can be spread across many passages in long texts. This poses the challenge of extracting long lists from long texts. We present the L3X method which tackles the problem in two stages: (1) recall-oriented generation using a large language model (LLM) with judicious techniques for retrieval augmentation, and (2) precision-oriented scrutinization to validate or prune candidates. Our L3X method outperforms LLM-only generations by a substantial margin.

arxiv情報

著者 Sneha Singhania,Simon Razniewski,Gerhard Weikum
発行日 2025-03-19 11:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents はコメントを受け付けていません

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

要約

自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が必要です。
ASRの結果の確実性を示す信頼性スコアは、ユーザーがエラーの識別と修正を支援する可能性があります。
この研究では、エンドツーエンドASRモデルの包括的な分析と36人の参加者を対象としたユーザー調査を通じて、エラー検出の信頼スコアの信頼性を評価します。
結果は、信頼性スコアが転写精度と相関するのに対し、エラー検出パフォーマンスは限られていることを示しています。
分類器は頻繁にエラーを逃したり、多くの誤検知を生み出したりして、実用的な有用性を損ないます。
信頼ベースのエラー検出は、補正効率を向上させず、参加者が役立つと認識されませんでした。
これらの調査結果は、信頼スコアの限界と、ASRの結果のユーザーの相互作用と説明可能性を改善するためのより洗練されたアプローチの必要性を強調しています。

要約(オリジナル)

Despite advances in Automatic Speech Recognition (ASR), transcription errors persist and require manual correction. Confidence scores, which indicate the certainty of ASR results, could assist users in identifying and correcting errors. This study evaluates the reliability of confidence scores for error detection through a comprehensive analysis of end-to-end ASR models and a user study with 36 participants. The results show that while confidence scores correlate with transcription accuracy, their error detection performance is limited. Classifiers frequently miss errors or generate many false positives, undermining their practical utility. Confidence-based error detection neither improved correction efficiency nor was perceived as helpful by participants. These findings highlight the limitations of confidence scores and the need for more sophisticated approaches to improve user interaction and explainability of ASR results.

arxiv情報

著者 Korbinian Kuhn,Verena Kersken,Gottfried Zimmermann
発行日 2025-03-19 11:33:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS, I.2.7 | Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces はコメントを受け付けていません

Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge

要約

材料の合成は、エネルギー貯蔵、触媒、電子機器、生物医学装置などの革新に不可欠です。
しかし、このプロセスは、専門家の直観によって導かれる経験的、試行錯誤の方法に大きく依存しています。
私たちの仕事の目的は、実用的でデータ駆動型のリソースを提供することにより、材料科学コミュニティをサポートすることです。
私たちは、新しく開発されたベンチマークであるAlchemyBenchの基礎を形成するオープンアクセス文献から17Kの専門家で検証された合成レシピの包括的なデータセットをキュレーションしました。
AlchemyBenchは、合成予測に適用される大規模な言語モデルの研究をサポートするエンドツーエンドのフレームワークを提供します。
原材料と機器の予測、合成手順の生成、および特性評価の結果予測など、重要なタスクが含まれます。
自動評価のために大規模な言語モデルを活用し、専門家の評価と強い統計的一致を実証するLLM-as-a-Judgeフレームワークを提案します。
全体として、当社の貢献は、材料の合成の予測と指導におけるLLMの能力を調査するための支援的な基盤を提供し、最終的にはより効率的な実験設計と材料科学のイノベーションを加速するための道を開きます。

要約(オリジナル)

Materials synthesis is vital for innovations such as energy storage, catalysis, electronics, and biomedical devices. Yet, the process relies heavily on empirical, trial-and-error methods guided by expert intuition. Our work aims to support the materials science community by providing a practical, data-driven resource. We have curated a comprehensive dataset of 17K expert-verified synthesis recipes from open-access literature, which forms the basis of our newly developed benchmark, AlchemyBench. AlchemyBench offers an end-to-end framework that supports research in large language models applied to synthesis prediction. It encompasses key tasks, including raw materials and equipment prediction, synthesis procedure generation, and characterization outcome forecasting. We propose an LLM-as-a-Judge framework that leverages large language models for automated evaluation, demonstrating strong statistical agreement with expert assessments. Overall, our contributions offer a supportive foundation for exploring the capabilities of LLMs in predicting and guiding materials synthesis, ultimately paving the way for more efficient experimental design and accelerated innovation in materials science.

arxiv情報

著者 Heegyu Kim,Taeyang Jeon,Seungtaek Choi,Ji Hoon Hong,Dong Won Jeon,Ga-Yeon Baek,Gyeong-Won Kwak,Dong-Hee Lee,Jisu Bae,Chihoon Lee,Yunseo Kim,Seon-Jin Choi,Jin-Seong Park,Sung Beom Cho,Hyunsouk Cho
発行日 2025-03-19 11:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge はコメントを受け付けていません

Increasing the Robustness of the Fine-tuned Multilingual Machine-Generated Text Detectors

要約

LLMの増殖以来、有害なコンテンツの作成と拡散に対する誤用について懸念がありました。
最近の研究は、そのような恐怖を正当化し、LLMの脆弱性と彼らの誤用の高い可能性の証拠を提供します。
人間は、高品質の機械で生成された人間が書いたテキストを区別することができなくなりました。
したがって、機械で生成されたコンテンツを正確に検出するための自動化された手段を開発することが重要です。
オンライン情報分野でそのようなコンテンツを識別することができるため、その信頼性に関する追加情報が提供されます。
この作業は、検出タスクのためにLLMSの堅牢な微調整プロセスを提案し、検出器を難読化に対してより堅牢にし、分散排出データに対してより一般化しやすくすることにより、問題に対処します。

要約(オリジナル)

Since the proliferation of LLMs, there have been concerns about their misuse for harmful content creation and spreading. Recent studies justify such fears, providing evidence of LLM vulnerabilities and high potential of their misuse. Humans are no longer able to distinguish between high-quality machine-generated and authentic human-written texts. Therefore, it is crucial to develop automated means to accurately detect machine-generated content. It would enable to identify such content in online information space, thus providing an additional information about its credibility. This work addresses the problem by proposing a robust fine-tuning process of LLMs for the detection task, making the detectors more robust against obfuscation and more generalizable to out-of-distribution data.

arxiv情報

著者 Dominik Macko,Robert Moro,Ivan Srba
発行日 2025-03-19 11:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Increasing the Robustness of the Fine-tuned Multilingual Machine-Generated Text Detectors はコメントを受け付けていません

EmoGRACE: Aspect-based emotion analysis for social media data

要約

センチメント分析は文からアスペクトレベル、つまり感情に関連する具体的な用語の識別に進みましたが、アスペクトベースの感情分析(ABEA)の同等の分野は、データセットのボトルネックと、バイナリ感情とは対照的に感情クラスの複雑さの増加に直面しています。
このペーパーでは、2,621個の英語ツイートで構成される最初のABEAトレーニングデータセットを生成し、アスペクト用語抽出(ATE)およびアスペクト感情分類(AEC)のABEAサブタスクのBERTベースのモデルを微調整することにより、これらのギャップに対処します。
データセット注釈プロセスは、Shaver et al。による階層感情理論に基づいていました。
[1]そして、ラベルの一貫性を促進するために、グループ注釈と多数決の投票戦略を利用しました。
結果のデータセットには、怒り、悲しみ、幸福、恐怖、および非クラスのためのアスペクトレベルの感情ラベルが含まれていました。
新しいABEAトレーニングデータセットを使用して、Luo et al。
[2]はABEAのために微調整されました。
結果は、ATEで70.1%のF1スコア、ジョイントATEおよびAEC抽出で46.9%のパフォーマンスプラトーを反映しています。
モデルパフォーマンスの制限要因は、タスクの複雑さの増加と組み合わされた小さなトレーニングデータセットサイズとして広く識別され、モデルの過剰適合と限られた能力が新しいデータに適切に一般化することができます。

要約(オリジナル)

While sentiment analysis has advanced from sentence to aspect-level, i.e., the identification of concrete terms related to a sentiment, the equivalent field of Aspect-based Emotion Analysis (ABEA) is faced with dataset bottlenecks and the increased complexity of emotion classes in contrast to binary sentiments. This paper addresses these gaps, by generating a first ABEA training dataset, consisting of 2,621 English Tweets, and fine-tuning a BERT-based model for the ABEA sub-tasks of Aspect Term Extraction (ATE) and Aspect Emotion Classification (AEC). The dataset annotation process was based on the hierarchical emotion theory by Shaver et al. [1] and made use of group annotation and majority voting strategies to facilitate label consistency. The resulting dataset contained aspect-level emotion labels for Anger, Sadness, Happiness, Fear, and a None class. Using the new ABEA training dataset, the state-of-the-art ABSA model GRACE by Luo et al. [2] was fine-tuned for ABEA. The results reflected a performance plateau at an F1-score of 70.1% for ATE and 46.9% for joint ATE and AEC extraction. The limiting factors for model performance were broadly identified as the small training dataset size coupled with the increased task complexity, causing model overfitting and limited abilities to generalize well on new data.

arxiv情報

著者 Christina Zorenböhmer,Sebastian Schmidt,Bernd Resch
発行日 2025-03-19 11:48:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EmoGRACE: Aspect-based emotion analysis for social media data はコメントを受け付けていません

ReAttention: Training-Free Infinite Context with Finite Attention Scope

要約

大規模な言語モデル(LLM)の長いコンテキスト機能は大きなブレークスルーをもたらしましたが、長さの外挿での最大サポートされているコンテキストの長さは、実用的なアプリケーションを制限する重要なボトルネックのままです。
LLMSにおけるコンテキスト長の制約は、自己触媒メカニズムから生じます。これは、限られた事前に訓練された位置情報と注意の範囲を介して、無限に長いコンテキスト内でセマンティック関係を効果的かつ効率的にキャプチャすることはできません。
この作業では、十分なメモリリソースの下で有限の注意範囲を持つ無限のコンテキストをサポートする自己関節メカニズムに基づいてLLMを可能にするトレーニングなしのアプローチであるリアットを提案します。
Reattentionは、通常のポジションを意識した自己触たちの前に、長さの外挿の問題からLLMを解放する前に、ポジションにとらわれない$ $ k $の注意を払っています。
Longbench、L-Eval、およびInfinitebenchでの再術のパフォーマンスを検証し、従来の方法と同等であることを示しています。
さらに、LLAMA3.1-8BやMistral-V0.3-7Bを含む主流のLLMSにも再現が適用され、少なくとも1Mのコンテキスト長さをサポートできるようになり、llama3.2-3b-chatのコンテキスト長さを拡大することができます。
また、トリトンによる再現の効率を改善し、追加のオーバーヘッドなしで効率的な外挿を達成します。
このコードは、https://github.com/openmoss/reattentionで入手できます。

要約(オリジナル)

The long-context capability of the Large Language Models (LLM) has made significant breakthroughs, but the maximum supported context length in length extrapolation remains a critical bottleneck limiting their practical applications. The constraint of context length in LLMs arises from the self-attention mechanism, which cannot effectively and efficiently capture the semantic relationships within infinitely long contexts via the limited pre-trained positional information and attention scope. In this work, we propose ReAttention, a training-free approach enabling LLM based on the self-attention mechanism to support an infinite context with a finite attention scope under sufficient memory resources. ReAttention performs the position-agnostic top-$k$ attention before the ordinary position-aware self-attention, freeing LLMs from the length extrapolation issue. We validate the performance of ReAttention on the LongBench, L-Eval, and InfiniteBench and demonstrate that it is on par with traditional methods. Furthermore, we also apply ReAttention on mainstream LLMs, including LLaMA3.1-8B and Mistral-v0.3-7B, enabling them to support context lengths of at least 1M and even expanding the context length of LLaMA3.2-3B-chat by 128$\times$ to 4M without any further training in Needle-In-A-Haystack tests. We also improve the efficiency of ReAttention with Triton and achieve an efficient extrapolation without additional overhead. The code is available at https://github.com/OpenMOSS/ReAttention.

arxiv情報

著者 Xiaoran Liu,Ruixiao Li,Qipeng Guo,Zhigeng Liu,Yuerong Song,Kai Lv,Hang Yan,Linlin Li,Qun Liu,Xipeng Qiu
発行日 2025-03-19 12:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReAttention: Training-Free Infinite Context with Finite Attention Scope はコメントを受け付けていません

High-Dimensional Interlingual Representations of Large Language Models

要約

大規模な多言語データセットでトレーニングされた大規模な言語モデル(LLMS)は、双方向の構成要素の形成を示唆しています。これは、表現スペースの共有サブスペースです。
ただし、この現象に関する証拠は混合されているため、これらのモデルが統一された統一性表現を真に発達させるのか、それとも部分的に整列した構造を提示するのかは不明です。
リソースレベル、類型、および地理的地域でさまざまな31の多様な言語を探ります。
そして、多言語のLLMが一貫性のない横断的なアラインメントを示すことを発見します。
これに対処するために、共有されているセマンティックサブスペースと断片化されたコンポーネントの両方を識別するintlinglingual表現フレームワークを提案します。
高次元表現のローカル近隣構造を比較することにより、局所的なオーバーラップ(ILO)スコアを導入して、間隔間アラインメントを定量化します。
ILOを利用して、多言語LLMSの診療間表現に対する単一言語の微調整の影響を調査します。
我々の結果は、単一の言語でのみトレーニングが初期層のアラインメントを破壊し、これらの層を凍結することで、診断間表現の整列が保持され、横断的な一般化が改善されることを示しています。
これらの結果は、間隔間表現を評価するためのフレームワークとメトリックを検証し、スケーラブルな多言語学習には間隔間アラインメントが重要であることをさらに強調します。

要約(オリジナル)

Large language models (LLMs) trained on massive multilingual datasets hint at the formation of interlingual constructs–a shared subspace in the representation space. However, evidence regarding this phenomenon is mixed, leaving it unclear whether these models truly develop unified interlingual representations, or present a partially aligned constructs. We explore 31 diverse languages varying on their resource-levels, typologies, and geographical regions; and find that multilingual LLMs exhibit inconsistent cross-lingual alignments. To address this, we propose an interlingual representation framework identifying both the shared interlingual semantic subspace and fragmented components, existed due to representational limitations. We introduce Interlingual Local Overlap (ILO) score to quantify interlingual alignment by comparing the local neighborhood structures of high-dimensional representations. We utilize ILO to investigate the impact of single-language fine-tuning on the interlingual representations in multilingual LLMs. Our results indicate that training exclusively on a single language disrupts the alignment in early layers, while freezing these layers preserves the alignment of interlingual representations, leading to improved cross-lingual generalization. These results validate our framework and metric for evaluating interlingual representation, and further underscore that interlingual alignment is crucial for scalable multilingual learning.

arxiv情報

著者 Bryan Wilie,Samuel Cahyawijaya,Junxian He,Pascale Fung
発行日 2025-03-19 12:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | High-Dimensional Interlingual Representations of Large Language Models はコメントを受け付けていません

Are formal and functional linguistic mechanisms dissociated in language models?

要約

大規模な言語モデル(LLM)はますます能力がありますが、これらの機能は不均一に分散されています。流fluent的で文法的なテキストの作成などの正式な言語タスクに優れていますが、推論や一貫した事実検索などの機能的な言語タスクとより闘っています。
神経科学に触発された最近の研究は、正式な言語タスクと機能的言語タスクの両方で成功するためには、LLMがそれぞれに異なるメカニズムを使用する必要があることを示唆しています。
このようなローカリゼーションは、トレーニングを通じて組み込まれるか、自発的に出現することができます。
この論文では、次のように尋ねます。現在のモデルは、機能的な言語能力を急速に改善することで、形式的および機能的言語メカニズムの明確な局在を示しますか?
「回路」または最小限の計算サブグラフを見つけて比較することにより、これに答えます。これは、さまざまな形式的および機能的なタスクを担当します。
10個の異なるタスクにわたって5 LLMを比較すると、正式なタスクと機能的タスクの回路間には実際にはほとんど重複がありませんが、人間の脳に存在するように、正式な言語タスク間にはほとんど重複がないことがわかります。
したがって、機能的なタスク回路とは異なる単一の正式な言語ネットワークは、とらえどころのないままです。
ただし、クロスタスクの忠実さ – ある回路が別のタスクを解決する能力の能力 – 正式なメカニズムと機能的メカニズムの分離を観察し、正式なタスク間の共有メカニズムが存在する可能性があることを示唆しています。

要約(オリジナル)

Although large language models (LLMs) are increasingly capable, these capabilities are unevenly distributed: they excel at formal linguistic tasks, such as producing fluent, grammatical text, but struggle more with functional linguistic tasks like reasoning and consistent fact retrieval. Inspired by neuroscience, recent work suggests that to succeed on both formal and functional linguistic tasks, LLMs should use different mechanisms for each; such localization could either be built-in or emerge spontaneously through training. In this paper, we ask: do current models, with fast-improving functional linguistic abilities, exhibit distinct localization of formal and functional linguistic mechanisms? We answer this by finding and comparing the ‘circuits’, or minimal computational subgraphs, responsible for various formal and functional tasks. Comparing 5 LLMs across 10 distinct tasks, we find that while there is indeed little overlap between circuits for formal and functional tasks, there is also little overlap between formal linguistic tasks, as exists in the human brain. Thus, a single formal linguistic network, unified and distinct from functional task circuits, remains elusive. However, in terms of cross-task faithfulness – the ability of one circuit to solve another’s task – we observe a separation between formal and functional mechanisms, suggesting that shared mechanisms between formal tasks may exist.

arxiv情報

著者 Michael Hanna,Sandro Pezzelle,Yonatan Belinkov
発行日 2025-03-19 12:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Are formal and functional linguistic mechanisms dissociated in language models? はコメントを受け付けていません

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

要約

生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリケーションになります。
ただし、高い幾何学的精度と編集可能性を達成するには、Tikzのような言語のグラフィックプログラムとして数字を表す必要があり、整列したトレーニングデータ(つまり、キャプション付きのグラフィックプログラム)は依然として不足しています。
一方、大量の整理されていないグラフィックプログラムとキャプション付きラスター画像は、より簡単に利用できます。
これらの異なるデータソースを、画像表現を中間ブリッジとして使用して、テキスト理解からグラフィックスプログラムの生成を切り離すTikzeroを提示します。
グラフィックプログラムとキャプション付き画像に関する独立したトレーニングを可能にし、推論中にゼロショットテキスト誘導グラフィックプログラムの合成を可能にします。
私たちの方法は、キャプションに並べられたグラフィックプログラムでのみ動作できるベースラインを大幅に上回ることを示しています。
さらに、キャプションに合わせたグラフィックプログラムを補完的なトレーニング信号として活用する場合、TikzeroはGPT-4Oなどの商用システムを含むはるかに大きなモデルのパフォーマンスを一致させるか、それを超えます。
コード、データセット、および選択モデルは公開されています。

要約(オリジナル)

With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

arxiv情報

著者 Jonas Belouadi,Eddy Ilg,Margret Keuper,Hideki Tanaka,Masao Utiyama,Raj Dabre,Steffen Eger,Simone Paolo Ponzetto
発行日 2025-03-19 12:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TikZero: Zero-Shot Text-Guided Graphics Program Synthesis はコメントを受け付けていません