How Much is Enough? The Diminishing Returns of Tokenization Training Data

要約

自然言語処理における重要な初期ステップであるトークン化は、トークン化アルゴリズム、語彙サイズ、トークン化戦略、推論戦略、トレーニングデータコーパスなど、いくつかの重要なパラメーターによって支配されます。
このペーパーでは、見過ごされがちなハイパーパラメーターであるトークン剤トレーニングデータサイズの影響を調査します。
1GBから900GBの範囲の英語トレーニングデータを使用して、さまざまな語彙サイズでBPE、Unigramlm、およびワードピーストークンザーをトレーニングします。
私たちの調査結果は、トレーニングデータサイズが約150GBを超えて増加するにつれてリターンが減少することを明らかにし、追加データを通じて達成可能なトークン化品質の改善の実用的な制限を示唆しています。
この現象を分析し、飽和効果をトークン化前段階によって導入された制約に起因します。
次に、英語から類型的に遠い言語であるロシア語のデータを実験することにより、これらの発見が一般化できる程度を示します。
ロシア語のテキストでは、200GBのデータからトークナイザーをトレーニングした後、収益が減少することを観察します。これは、英語でトレーニングするときよりも約33%多いです。
これらの結果は、大きなコーパスでのトレーニングに必要な計算を削減することにより、トークン化プロセスを最適化するための貴重な洞察を提供し、トークン化アルゴリズムの将来の研究のための有望な方向性を提案します。

要約(オリジナル)

Tokenization, a crucial initial step in natural language processing, is governed by several key parameters, such as the tokenization algorithm, vocabulary size, pre-tokenization strategy, inference strategy, and training data corpus. This paper investigates the impact of an often-overlooked hyperparameter, tokenizer training data size. We train BPE, UnigramLM, and WordPiece tokenizers across various vocabulary sizes using English training data ranging from 1GB to 900GB. Our findings reveal diminishing returns as training data size increases beyond roughly 150GB, suggesting a practical limit to the improvements in tokenization quality achievable through additional data. We analyze this phenomenon and attribute the saturation effect to constraints introduced by the pre-tokenization stage. We then demonstrate the extent to which these findings can generalize by experimenting on data in Russian, a language typologically distant from English. For Russian text, we observe diminishing returns after training a tokenizer from 200GB of data, which is approximately 33% more than when training on English. These results provide valuable insights for optimizing the tokenization process by reducing the compute required for training on large corpora and suggest promising directions for future research in tokenization algorithms.

arxiv情報

著者 Varshini Reddy,Craig W. Schmidt,Yuval Pinter,Chris Tanner
発行日 2025-06-16 16:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク