Tokenization Is More Than Compression

要約

トークン化は、自然言語処理 (NLP) タスクの基礎的なステップであり、生のテキストと言語モデルの橋渡しをします。
バイト ペア エンコーディング (BPE) などの既存のトークン化アプローチはデータ圧縮の分野に由来しており、BPE の有効性はテキストを比較的少数のトークンに圧縮できる能力に由来していることが示唆されています。
ドキュメントのテキストを特定の語彙の最小数のトークンに分割する新しいトークナイザーである PathPiece を導入することで、トークンが少ないほどダウンストリームのパフォーマンスが向上するという仮説をテストします。
広範な実験を通じて、この仮説は当てはまらないことがわかり、効果的なトークン化の理由の理解に疑問が生じています。
他のどの要因が役割を果たしているかを調べるために、事前トークン化、語彙構築、セグメンテーションというトークン化の 3 つのフェーズすべてにわたって設計上の決定を評価し、効果的なトークナイザーの設計に新たな洞察を提供します。
具体的には、事前トークン化の重要性と、BPE を使用して語彙構築を初期化する利点について説明します。
私たちは、3 億 5000 万から 240 億のパラメーターのサイズのさまざまなトークン化を使用して 64 の言語モデルをトレーニングし、そのすべてが公開されています。

要約(オリジナル)

Tokenization is a foundational step in Natural Language Processing (NLP) tasks, bridging raw text and language models. Existing tokenization approaches like Byte-Pair Encoding (BPE) originate from the field of data compression, and it has been suggested that the effectiveness of BPE stems from its ability to condense text into a relatively small number of tokens. We test the hypothesis that fewer tokens lead to better downstream performance by introducing PathPiece, a new tokenizer that segments a document’s text into the minimum number of tokens for a given vocabulary. Through extensive experimentation we find this hypothesis not to be the case, casting doubt on the understanding of the reasons for effective tokenization. To examine which other factors play a role, we evaluate design decisions across all three phases of tokenization: pre-tokenization, vocabulary construction, and segmentation, offering new insights into the design of effective tokenizers. Specifically, we illustrate the importance of pre-tokenization and the benefits of using BPE to initialize vocabulary construction. We train 64 language models with varying tokenization, ranging in size from 350M to 2.4B parameters, all of which are made publicly available.

arxiv情報

著者 Craig W. Schmidt,Varshini Reddy,Haoran Zhang,Alec Alameddine,Omri Uzan,Yuval Pinter,Chris Tanner
発行日 2024-02-28 14:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク