Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

要約

現在の最強の言語モデルの事前トレーニング データは不透明です。
特に、さまざまなドメインや言語の割合についてはほとんど知られていません。
この研究では、トレーニング データの分布構成を明らかにすることを目的とした、データ混合推論と呼ばれるタスクに取り組みます。
私たちは、これまで見落とされていた情報源、つまり最新の言語モデルの大部分で使用されているバイト ペア エンコーディング (BPE) トークナイザーに基づいた新しい攻撃を紹介します。
私たちの重要な洞察は、BPE トークナイザーによって学習されたマージ ルールの順序付きリストにより、トレーニング データ内のトークン頻度に関する情報が自然に明らかになるということです。
トークナイザーのマージ リストと対象の各カテゴリのサンプル データを考慮して、トークナイザーのトレーニング セット内の各カテゴリの割合を解決する線形プログラムを定式化します。
制御された実験では、自然言語、プログラミング言語、データ ソースの既知の混合物でトレーニングされたトークナイザーの攻撃が高精度で混合比を回復することを示しました。
次に、最近の LM とともにリリースされた既製のトークナイザーにアプローチを適用します。
私たちは、これらのモデルに関する多くの公開情報を確認し、いくつかの新しい推論も行っています。GPT-4o と Mistral NeMo のトークナイザーは、以前のものよりもはるかに多言語対応であり、それぞれ 39% と 47% の非英語データでトレーニングされています。
Llama 3 は、主に多言語 (48%) で使用するために GPT-3.5 のトークナイザーを拡張します。
GPT-3.5 と Claude のトークナイザーは、主にコード (約 60%) でトレーニングされます。
私たちの研究が、事前トレーニング データの現在の設計実践に光を当て、LM のデータ混合推論に関する継続的な研究のきっかけとなることを願っています。

要約(オリジナル)

The pretraining data of today’s strongest language models is opaque; in particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information: byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data. Given a tokenizer’s merge list along with example data for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer’s training set. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o and Mistral NeMo’s tokenizers are much more multilingual than their predecessors, training on 39% and 47% non-English language data, respectively; Llama 3 extends GPT-3.5’s tokenizer primarily for multilingual (48%) use; GPT-3.5’s and Claude’s tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.

arxiv情報

著者 Jonathan Hayase,Alisa Liu,Yejin Choi,Sewoong Oh,Noah A. Smith
発行日 2024-09-05 16:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク