Tokenization Falling Short: The Curse of Tokenization

要約

言語モデルは通常、生テキストを事前に定義された語彙からサブワード識別子のシーケンスにトークン化するが、このプロセスは本質的に誤字脱字や長さのばらつきに敏感であり、トークンの内部構造にはほとんど気づかない。本研究では、これらの欠点を掘り下げ、大規模言語モデル(LLM)が依然としてこれらの問題の影響を受けやすいことを実証する。本研究では、(1)複雑な問題解決、(2)トークン構造のプロービング、(3)タイポグラフィの変化への耐性という3つの重要な研究課題を通して、これらの課題とLLMへの影響を系統的に調査する。その結果、モデルパラメータをスケーリングすることで、トークン化の問題を軽減できることが明らかになった。しかし、LLMは依然として、誤字やその他のテキスト形式のバリエーションによって引き起こされるバイアスに悩まされている。我々の実験は、BPE-dropoutのようなサブワード正則化がこの問題を軽減できることを示している。評価コードとデータはhttps://github.com/FloatAI/TKEval。

要約(オリジナル)

Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens–issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We release our evaluation code and data at https://github.com/FloatAI/TKEval.

arxiv情報

著者 Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li
発行日 2024-10-03 17:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク