Zero-Shot Tokenizer Transfer

要約

言語モデル (LM) はトークナイザーにバインドされており、生のテキストを一連の語彙項目 (トークン) にマッピングします。
これにより、柔軟性が制限されます。たとえば、主に英語で訓練された LM は、他の自然言語やプログラミング言語では引き続き良好なパフォーマンスを発揮しますが、英語中心のトークナイザーにより効率が大幅に低下します。
これを軽減するには、パフォーマンスを低下させることなく、元の LM トークナイザーを任意のトークナイザーとオンザフライで交換できる必要があります。
したがって、この作業では、新しい問題であるゼロショット トークナイザー転送 (ZeTT) を定義します。
ZeTT の中核となる課題は、新しいトークナイザーのボキャブラリー内にトークンの埋め込みを見つけることです。
埋め込みを初期化するための以前のヒューリスティックは、ZeTT 設定ではチャンス レベルで実行されることが多いため、新しい解決策を提案します。トークナイザーを入力として受け取り、対応する埋め込みを予測するハイパーネットワークをトレーニングします。
我々は、ハイパーネットワークがエンコーダー (XLM-R など) とデコーダー LLM (Mistral-7B など) の両方を備えた新しいトークナイザーに一般化することを経験的に示しています。
私たちの方法は、トークン化されたシーケンスの長さを大幅に短縮しながら、言語間タスクやコーディングタスクにおいて元のモデルのパフォーマンスに近づきます。
また、残りのギャップは、1B 未満のトークンでトレーニングを継続することですぐに埋めることができることもわかりました。
最後に、基本 (L)LM 用にトレーニングされた ZeTT ハイパーネットワークは、追加のトレーニングなしで微調整されたバリアントにも適用できることを示します。
全体として、私たちの結果はトークナイザーから LM を切り離す方向に大きく前進しました。

要約(オリジナル)

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models’ performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

arxiv情報

著者 Benjamin Minixhofer,Edoardo Maria Ponti,Ivan Vulić
発行日 2024-05-13 16:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク