Toward a Theory of Tokenization in LLMs

要約

言語モデリングのトークン化を回避しようとする多くの研究が行われてきましたが (Clark et al., 2022; Xue et al., 2022)、現在のコンセンサスは、トークン化が最新の言語モデリングを設計するために必要な最初のステップであるということです。
-アートパフォーマンス言語モデル。
この論文では、単純なデータ生成プロセスにおけるトランスフォーマーの動作を研究することにより、理論的な観点からトークン化を調査します。
$k > 1$ の特定の単純な $k^{\text{th}}$ 次マルコフ プロセスから抽出されたデータでトレーニングされた場合、トランスフォーマーは驚くべき現象を示します。トークン化がない場合、経験的に正しい分布を学習できません。
ユニグラム モデルに従って文字を予測します (Makkuva et al., 2024)。
しかし、トークン化を追加すると、トランスフォーマーがこの障壁を突破し、ソースから引き出されるシーケンスの確率をほぼ最適にモデル化し、小さなクロスエントロピー損失を達成できることが経験的に観察されています。
この観察を出発点として、トークン化の有無にかかわらず、変圧器によって達成されるエンドツーエンドのクロスエントロピー損失を研究します。
適切なトークン化を行うことで、トランスフォーマーによって学習された (トークンを介した) 最も単純なユニグラム モデルでも、$k^{\text{th}}$ 次のマルコフ ソースから引き出されるシーケンスの確率をほぼ最適にモデル化できることを示します。
私たちの分析は、マルコフ データに対するトランスフォーマーの動作を研究することにより、実際にトークン化を使用する正当性を提供します。

要約(オリジナル)

While there has been a large body of research attempting to circumvent tokenization for language modeling (Clark et al., 2022; Xue et al., 2022), the current consensus is that it is a necessary initial step for designing state-of-the-art performant language models. In this paper, we investigate tokenization from a theoretical point of view by studying the behavior of transformers on simple data generating processes. When trained on data drawn from certain simple $k^{\text{th}}$-order Markov processes for $k > 1$, transformers exhibit a surprising phenomenon – in the absence of tokenization, they empirically fail to learn the right distribution and predict characters according to a unigram model (Makkuva et al., 2024). With the addition of tokenization, however, we empirically observe that transformers break through this barrier and are able to model the probabilities of sequences drawn from the source near-optimally, achieving small cross-entropy loss. With this observation as starting point, we study the end-to-end cross-entropy loss achieved by transformers with and without tokenization. With the appropriate tokenization, we show that even the simplest unigram models (over tokens) learnt by transformers are able to model the probability of sequences drawn from $k^{\text{th}}$-order Markov sources near optimally. Our analysis provides a justification for the use of tokenization in practice through studying the behavior of transformers on Markovian data.

arxiv情報

著者 Nived Rajaraman,Jiantao Jiao,Kannan Ramchandran
発行日 2024-04-12 09:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク