Retrofitting (Large) Language Models with Dynamic Tokenization

要約

現在の言語モデル (LM) は、固定された静的なサブワード トークナイザーを使用します。
この選択は、当然のことと思われがちですが、通常、英語以外の言語では効率と機能が低下し、新しいドメインや言語に LM を適用することが困難になります。
これらの問題に対処するために、動的トークン化を使用して LM を改良することを提案します。これは、入力テキストに基づいてトークン境界を動的に決定する方法です。
エンコーダ スタイルのモデルの場合、バイト ペア エンコーディング (BPE) からインスピレーションを得たサブワード マージ アルゴリズムをバッチ レベルで導入します。
頻繁に使用されるサブワード シーケンスをバッチでマージし、事前トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算します。
これを単語レベルの境界に適用すると、XLM-R を使用した XNLI の 14 言語でトークン シーケンスの長さが平均して 20% 以上短縮され、タスクのパフォーマンスの低下は 2% 未満になります。
デコーダ スタイルのモデルの場合、動的トークン化を次の 2 つの方法で適用します。1) プレフィルの場合、単語レベルと比較して最大 40% のシーケンス削減で Mistral-7B のパフォーマンスをほぼ完全に維持します。
2) 近似最近傍インデックスを使用して、100 万のトークン語彙による高速生成を実現し、さらに大きな動的な語彙への拡張性を示します。
全体として、私たちの調査結果は、動的トークン化が推論速度を大幅に向上させ、言語間の公平性を促進し、静的トークン化の限界を克服し、より公平で適応性のある LM を可能にする方向に飛躍することを示しています。

要約(オリジナル)

Current language models (LMs) use a fixed, static subword tokenizer. This choice, often taken for granted, typically results in degraded efficiency and capabilities in languages other than English, and makes it challenging to apply LMs to new domains or languages. To address these issues, we propose retrofitting LMs with dynamic tokenization: a way to dynamically decide on token boundaries based on the input text. For encoder-style models, we introduce a subword-merging algorithm inspired by byte-pair encoding (BPE), but at a batch level. We merge frequent subword sequences in a batch, then apply a pretrained embedding-prediction hypernetwork to compute the token embeddings on-the-fly. When applied with word-level boundaries, this on average reduces token sequence lengths by >20% across 14 languages on XNLI with XLM-R while degrading its task performance by less than 2%. For decoder-style models, we apply dynamic tokenization in two ways: 1) for prefilling, maintaining performance of Mistral-7B almost completely with up to 40% sequence reduction – relative to the word-level; and 2) via an approximate nearest neighbor index, achieving fast generation with a one million token vocabulary, demonstrating scalability to even larger, dynamic vocabularies. Overall, our findings show that dynamic tokenization substantially improves inference speed and promotes fairness across languages, making a leap towards overcoming the limitations of static tokenization and enabling more equitable and adaptable LMs.

arxiv情報

著者 Darius Feher,Benjamin Minixhofer,Ivan Vulić
発行日 2024-11-27 17:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク