要約
ほぼすべての言語モデル(LM)トークン化スキームにわたる仮定は、トークンがサブワード、つまり単語の境界内に含まれるべきであるということです。
一見合理的な帰納的バイアスを提供しながら、この一般的な慣行は現代のLMSの可能性を制限しているのでしょうか?
Whitespaceは、マルチワード式(例えば、「ちなみに」)、概念を表現するために必要な単語の数の交差的な変動(ドイツ語の「スペーススーツヘルメット」が「ラウマンツハルム」)の交差的な変動と、ホワイトスペースを使用しない言語(E.G.、中国)を表現する信頼できる意味の区切り文字ではありません。
サブワードを超えたトークン化の可能性を調査するために、「スーパーワード」トークンザー、SuperBPEを導入します。これには、単純なプレシングカリキションをバイトペアエンコーディング(BPE)アルゴリズムに組み込み、最初にサブワードを学習し、次にホワイトスペースを橋渡しします。
これにより、エンコード効率の劇的な改善がもたらされます。語彙サイズを200kに修正すると、SuperBPEは平均してBPEよりも最大33%少ないトークンの固定テキストをエンコードします。
実験では、モデルサイズ、語彙サイズ、およびトレーニングの計算を修正しながら、8b変圧器LMSをゼロから取得し、語彙を学習するためのアルゴリズムのみを変化させます。
SuperBPEで訓練されたモデルは、30のダウンストリームタスク(MMLUで +8.2%を含む)にわたってBPEベースラインで平均 +4.0%の絶対改善を達成し、同時に推論時に27%少ない計算が必要です。
分析では、SuperBPEは、トークンあたりの難易度でより均一なテキストのセグメンテーションをもたらすことがわかります。
定性的には、これは、SuperBPEトークンが多くの場合、単一のユニットとして意味的に機能する一般的なマルチワード式をキャプチャすることが多いためかもしれません。
SuperBPEは、エンコード効率とダウンストリームパフォーマンスの両方を改善し、全体的に優れた言語モデルをもたらす、トークン化の局所的な修正であり、トークン化の局所的な変更です。
要約(オリジナル)
The assumption across nearly all language model (LM) tokenization schemes is that tokens should be subwords, i.e., contained within word boundaries. While providing a seemingly reasonable inductive bias, is this common practice limiting the potential of modern LMs? Whitespace is not a reliable delimiter of meaning, as evidenced by multi-word expressions (e.g., ‘by the way’), crosslingual variation in the number of words needed to express a concept (e.g., ‘spacesuit helmet’ in German is ‘raumanzughelm’), and languages that do not use whitespace at all (e.g., Chinese). To explore the potential of tokenization beyond subwords, we introduce a ‘superword’ tokenizer, SuperBPE, which incorporates a simple pretokenization curriculum into the byte-pair encoding (BPE) algorithm to first learn subwords, then superwords that bridge whitespace. This brings dramatic improvements in encoding efficiency: when fixing the vocabulary size to 200k, SuperBPE encodes a fixed piece of text with up to 33% fewer tokens than BPE on average. In experiments, we pretrain 8B transformer LMs from scratch while fixing the model size, vocabulary size, and train compute, varying *only* the algorithm for learning the vocabulary. Our model trained with SuperBPE achieves an average +4.0% absolute improvement over the BPE baseline across 30 downstream tasks (including +8.2% on MMLU), while simultaneously requiring 27% less compute at inference time. In analysis, we find that SuperBPE results in segmentations of text that are more uniform in per-token difficulty. Qualitatively, this may be because SuperBPE tokens often capture common multi-word expressions that function semantically as a single unit. SuperBPE is a straightforward, local modification to tokenization that improves both encoding efficiency and downstream performance, yielding better language models overall.
arxiv情報
著者 | Alisa Liu,Jonathan Hayase,Valentin Hofmann,Sewoong Oh,Noah A. Smith,Yejin Choi |
発行日 | 2025-03-17 17:53:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google