Byte BPE Tokenization as an Inverse string Homomorphism

要約

トークン化は、大規模言語モデル (LLM) のトレーニングと推論における重要な前処理ステップです。
LLM で使用されるニューラル アーキテクチャの表現力については広範な研究が行われていますが、トークン化の影響については十分に理解されていません。
この研究では、使用されるアルゴリズムに関係なく、トークン化が文字列とトークン間の逆準同型作用として機能することを実証します。
これは、ソース言語の文字空間とトークン化された言語のトークン空間が同型であり、ソース言語の構造的特性が保存されていることを示唆しています。
さらに、トークナイザーから返される明確なトークン化を指す、適切なトークン化の概念についても調査します。
私たちの分析により、文脈自由言語を認識する際のニューラル アーキテクチャの表現力はトークン化の影響を受けないことが明らかになりました。

要約(オリジナル)

Tokenization is an important preprocessing step in the training and inference of large language models (LLMs). While there has been extensive research on the expressive power of the neural achitectures used in LLMs, the impact of tokenization has not been well understood. In this work, we demonstrate that tokenization, irrespective of the algorithm used, acts as an inverse homomorphism between strings and tokens. This suggests that the character space of the source language and the token space of the tokenized language are homomorphic, preserving the structural properties of the source language. Additionally, we explore the concept of proper tokenization, which refers to an unambiguous tokenization returned from the tokenizer. Our analysis reveals that the expressiveness of neural architectures in recognizing context-free languages is not affected by tokenization.

arxiv情報

著者 Saibo Geng,Sankalp Gambhir,Chris Wendler,Robert West
発行日 2024-12-04 09:38:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク