When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars

要約

潜在的なセマンティクスを獲得する機能は、言語モデルのパフォーマンスを決定する重要な特性の1つです。
この機能を呼び出すための便利なアプローチの1つは、トレーニング前のデータのテキストの先頭でメタデータ(URL、ドメイン、スタイルなど)を準備することです。これにより、テキスト全体を観察する前にモデルが潜在セマンティクスに簡単にアクセスできます。
以前の研究では、この手法が実際にダウンストリームタスクでの訓練されたモデルのパフォーマンスを改善することが報告されています。
ただし、この改善は、特定の下流タスクでのみ観察されており、平均的な次のトークン予測損失の一貫した強化はありません。
この現象を理解するために、トレーニング前にメタデータを準備することが、人工データを使用してその動作を調べることにより、モデルのパフォーマンスにどのように影響するかを綿密に調査します。
興味深いことに、このアプローチは、下流タスクにプラスとマイナスの両方の効果をもたらすことがわかりました。
アプローチの有効性は、潜在的なセマンティクスがダウンストリームタスクのプロンプトから推測できるかどうかに依存することを実証します。
具体的には、確率的コンテキストのない文法によって生成されたデータを使用した調査を通じて、メタデータを使用したトレーニングは、与えられたコンテキストが潜在的なセマンティクスを推測するのに十分な長さである場合、モデルのパフォーマンスを改善するのに役立つことを示しています。
対照的に、この手法は、コンテキストに正確な事後推論を行うために必要な情報が欠けている場合、パフォーマンスに悪影響を与えます。

要約(オリジナル)

The ability to acquire latent semantics is one of the key properties that determines the performance of language models. One convenient approach to invoke this ability is to prepend metadata (e.g. URLs, domains, and styles) at the beginning of texts in the pre-training data, making it easier for the model to access latent semantics before observing the entire text. Previous studies have reported that this technique actually improves the performance of trained models in downstream tasks; however, this improvement has been observed only in specific downstream tasks, without consistent enhancement in average next-token prediction loss. To understand this phenomenon, we closely investigate how prepending metadata during pre-training affects model performance by examining its behavior using artificial data. Interestingly, we found that this approach produces both positive and negative effects on the downstream tasks. We demonstrate that the effectiveness of the approach depends on whether latent semantics can be inferred from the downstream task’s prompt. Specifically, through investigations using data generated by probabilistic context-free grammars, we show that training with metadata helps improve model’s performance when the given context is long enough to infer the latent semantics. In contrast, the technique negatively impacts performance when the context lacks the necessary information to make an accurate posterior inference.

arxiv情報

著者 Rei Higuchi,Ryotaro Kawata,Naoki Nishikawa,Kazusato Oko,Shoichiro Yamaguchi,Sosuke Kobayashi,Seiya Tokui,Kohei Hayashi,Daisuke Okanohara,Taiji Suzuki
発行日 2025-04-24 13:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク