Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

要約

現在の最強の言語モデルの事前トレーニング データは不透明です。
特に、さまざまなドメインや言語の割合についてはほとんど知られていません。
この研究では、トレーニング データの分布構成を明らかにすることを目的とした、データ混合推論と呼ばれるタスクに取り組みます。
私たちは、これまで見落とされていた情報源、つまり現代の言語モデルの大部分で使用されているバイト ペア エンコーディング (BPE) トークナイザーに基づいた新しい攻撃を紹介します。
私たちの重要な洞察は、BPE トークナイザーによって学習されたマージ ルールの順序付きリストにより、トレーニング データ内のトークン頻度に関する情報が自然に明らかになるということです。最初のマージは最も一般的なバイト ペアであり、2 番目のマージは最初のトークンをマージした後の最も一般的なペアです。
、 等々。
トークナイザーのマージ リストと対象の各カテゴリのデータ サンプルが与えられると、トークナイザーのトレーニング セット内の各カテゴリの割合を解決する線形プログラムを定式化します。
重要なのは、トークナイザーのトレーニング データが事前トレーニング データをどの程度代表しているかに応じて、事前トレーニング データについて間接的に学習できることです。
制御された実験では、自然言語、プログラミング言語、データ ソースの既知の混合物でトレーニングされたトークナイザーの攻撃が高精度で混合比を回復することを示しました。
次に、最近の LM とともにリリースされた既製のトークナイザーにアプローチを適用します。
私たちは、これらのモデルに関する多くの公開情報を確認し、いくつかの新しい推論も行います。 GPT-4o のトークナイザーは、以前のバージョンよりもはるかに多言語対応であり、39% の非英語データでトレーニングされています。
Llama3 は、主に多言語 (48%) で使用するために GPT-3.5 のトークナイザーを拡張します。
GPT-3.5 と Claude のトークナイザーは、主にコード (約 60%) でトレーニングされます。
私たちの研究が、事前トレーニング データの現在の設計実践に光を当て、LM のデータ混合推論に関する継続的な研究のきっかけとなることを願っています。

要約(オリジナル)

The pretraining data of today’s strongest language models is opaque. In particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information — byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer’s merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer’s training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about the pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o’s tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5’s tokenizer primarily for multilingual (48%) use; GPT-3.5’s and Claude’s tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.

arxiv情報

著者 Jonathan Hayase,Alisa Liu,Yejin Choi,Sewoong Oh,Noah A. Smith
発行日 2024-07-23 16:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク