The Foundations of Tokenization: Statistical and Computational Concerns

要約

トークン化(アルファベットの文字列を語彙のトークン列に変換すること)は、自然言語処理パイプラインの重要なステップである。トークン表現の使用は、モデルのパフォーマンスを向上させると広く信じられていますが、偽の曖昧さや矛盾など、多くの望ましくない動作の原因ともなっています。NLPにおける標準的な表現方法としての重要性が認識されているにもかかわらず、トークン化の理論的基盤はまだ完全に理解されていない。特に、トークン化が言語モデルの推定に与える影響は、主に経験的な手段によって研究されてきた。本論文は、トークナイザーモデルを表現・分析するための統一的な形式的枠組みを提案することで、この理論的ギャップの解決に貢献する。この枠組みは確率写像のカテゴリーに基づき、トークナイザーを原理的に利用するための一般的な条件、そして最も重要なこととして、トークナイザーモデルが統計的推定量の一貫性を保つための必要十分条件を確立することを可能にする。さらに、トークナイザーモデルを設計・実装する上で重要な統計的・計算上の問題、例えば、矛盾性、曖昧性、有限性、逐次性について議論する。本論文のフレームワークと結果は、ニューラル言語モデリングにおける表現のための強固な理論的基礎の構築に貢献し、将来の理論的・実証的研究に情報を提供することができる。

要約(オリジナル)

Tokenization – the practice of converting strings of characters from an alphabet into sequences of tokens over a vocabulary – is a critical step in the NLP pipeline. The use of token representations is widely credited with increased model performance but is also the source of many undesirable behaviors, such as spurious ambiguity or inconsistency. Despite its recognized importance as a standard representation method in NLP, the theoretical underpinnings of tokenization are not yet fully understood. In particular, the impact of tokenization on language model estimation has been investigated primarily through empirical means. The present paper contributes to addressing this theoretical gap by proposing a unified formal framework for representing and analyzing tokenizer models. Based on the category of stochastic maps, this framework enables us to establish general conditions for a principled use of tokenizers and, most importantly, the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. In addition, we discuss statistical and computational concerns crucial for designing and implementing tokenizer models, such as inconsistency, ambiguity, finiteness, and sequentiality. The framework and results advanced in this paper contribute to building robust theoretical foundations for representations in neural language modeling that can inform future theoretical and empirical research.

arxiv情報

著者 Juan Luis Gastaldi,John Terilla,Luca Malagutti,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2025-04-03 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク