Tokenization Falling Short: The Curse of Tokenization

要約

言語モデルは通常、生のテキストを事前定義された語彙からのサブワード識別子のシーケンスにトークン化します。このプロセスは本質的に誤字や長さの変化に敏感であり、トークン化の呪いと呼ばれるトークンの内部構造にはほとんど影響されません。
この研究では、これらの欠点を詳しく調べ、大規模言語モデル (LLM) が引き続きこれらの問題の影響を受けやすいことを示します。
この研究では、(1) 複雑な問題解決、(2) トークン構造の調査、(3) 活字の変動に対する回復力という 3 つの重要な研究課題を通じて、これらの課題と LLM への影響を体系的に調査します。
私たちの調査結果では、モデル パラメーターをスケーリングすることでトークン化の問題を軽減できることが明らかになりました。
ただし、LLM は依然として、タイプミスやその他のテキスト形式の変化によって引き起こされるバイアスに悩まされています。
私たちの実験では、BPE ドロップアウトなどのサブワード正則化によってこの問題が軽減されることが示されています。
さらなる研究を促進するために、コードとデータを公開します。

要約(オリジナル)

Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens-issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We will release our code and data to facilitate further research.

arxiv情報

著者 Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li
発行日 2024-06-17 16:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク