Beyond Text Compression: Evaluating Tokenizers Across Scales

要約

トークナイザーの選択は言語モデルの性能に大きな影響を与えるが、トークナイザーの品質を利用しやすく信頼性の高い方法で評価することは未解決の課題である。スケーリング一貫性からヒントを得て、小規模なモデルであれば、大規模なモデルに対するトークナイザーの影響の大きな違いを、わずかな計算コストで正確に予測できることを示す。英語中心のトークナイザーと多言語トークナイザーの両方を系統的に評価することで、トークナイザーの選択は、英語でのタスクにはほとんど影響しないが、多言語設定では一貫した性能差が生じることを発見する。我々は、Zipfの法則にインスパイアされた新しい内在的トークナイザメトリクスを提案する。このメトリクスは、未知の言語をモデル化する際に、テキスト圧縮よりも下流の性能と強く相関する。トークナイザーの動作の複数の側面を捉えるために複数のメトリクスを組み合わせることで、固有トークナイザー評価のための信頼性の高いフレームワークを開発します。我々の研究は、将来の言語モデル開発において、情報に基づいたトークナイザー選択への、より効率的な道を提供する。

要約(オリジナル)

The choice of tokenizer can profoundly impact language model performance, yet accessible and reliable evaluations of tokenizer quality remain an open challenge. Inspired by scaling consistency, we show that smaller models can accurately predict significant differences in tokenizer impact on larger models at a fraction of the compute cost. By systematically evaluating both English-centric and multilingual tokenizers, we find that tokenizer choice has negligible effects on tasks in English but results in consistent performance differences in multilingual settings. We propose new intrinsic tokenizer metrics inspired by Zipf’s law that correlate more strongly with downstream performance than text compression when modeling unseen languages. By combining several metrics to capture multiple aspects of tokenizer behavior, we develop a reliable framework for intrinsic tokenizer evaluations. Our work offers a more efficient path to informed tokenizer selection in future language model development.

arxiv情報

著者 Jonas F. Lotz,António V. Lopes,Stephan Peitz,Hendra Setiawan,Leonardo Emili
発行日 2025-06-03 17:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク