The Foundations of Tokenization: Statistical and Computational Concerns

要約

トークン化 (アルファベット上の文字列を語彙上のトークンのシーケンスに変換する実践) は、NLP パイプラインにおける重要なステップですが、十分に理論化されていません。
特に、これは、広く使用されているエンドツーエンドのニューラル モデルに完全に統合されていない唯一の主要なステップのままです。
この論文は、形式的な観点からトークン化の基礎を築くことによって、この理論的なギャップに対処することを目的としています。
確率マップのカテゴリに関する基本的なプロパティを明確にして拡張することにより、トークナイザー モデルを表現および分析するための統一フレームワークを提案します。
このフレームワークにより、トークナイザーの使用に関する一般条件を確立できます。
特に、統計的推定量の一貫性を維持するためのトークナイザー モデルの必要十分条件を正式に確立します。
さらに、トークナイザー モデルの設計と実装に不可欠な統計的および計算上の懸念事項についても説明します。
この論文で進められたフレームワークと結果は、ニューラル言語モデリングの堅牢な理論的基盤への一歩を表します。

要約(オリジナル)

Tokenization – the practice of converting strings of characters over an alphabet into sequences of tokens over a vocabulary – is a critical yet under-theorized step in the NLP pipeline. Notably, it remains the only major step not fully integrated into widely used end-to-end neural models. This paper aims to address this theoretical gap by laying the foundations of tokenization from a formal perspective. By articulating and extending basic properties about the category of stochastic maps, we propose a unified framework for representing and analyzing tokenizer models. This framework allows us to establish general conditions for the use of tokenizers. In particular, we formally establish the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. Additionally, we discuss statistical and computational concerns crucial for the design and implementation of tokenizer models. The framework and results advanced in this paper represent a step toward a robust theoretical foundation for neural language modeling.

arxiv情報

著者 Juan Luis Gastaldi,John Terilla,Luca Malagutti,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2024-07-16 11:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク