How Much is Enough? The Diminishing Returns of Tokenization Training Data

要約

自然言語処理における重要な初期ステップであるトークン化は、より大きなトレーニングデータセットの恩恵を受けると想定されることがよくあります。
このペーパーでは、1GBから900GBの範囲のトークン剤トレーニングデータサイズの影響を調査します。
私たちの調査結果は、データサイズが増加するにつれてリターンが減少することを明らかにし、トレーニングデータをさらにスケーリングすることでトークン化の品質を改善できることの実際的な制限を強調しています。
この現象を分析し、飽和効果を、トークン化のトークン化段階によって課される制約に起因します。
これらの結果は、トークン化プロセスを最適化するための貴重な洞察を提供し、トークン化アルゴリズムの将来の研究の潜在的な手段を強調します。

要約(オリジナル)

Tokenization, a crucial initial step in natural language processing, is often assumed to benefit from larger training datasets. This paper investigates the impact of tokenizer training data sizes ranging from 1GB to 900GB. Our findings reveal diminishing returns as the data size increases, highlighting a practical limit on how much further scaling the training data can improve tokenization quality. We analyze this phenomenon and attribute the saturation effect to the constraints imposed by the pre-tokenization stage of tokenization. These results offer valuable insights for optimizing the tokenization process and highlight potential avenues for future research in tokenization algorithms.

arxiv情報

著者 Varshini Reddy,Craig W. Schmidt,Yuval Pinter,Chris Tanner
発行日 2025-02-27 17:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク