Multi-Word Tokenization for Sequence Compression

要約

大規模言語モデルは、さまざまなタスクのモデル化に非常に成功していることが証明されています。
ただし、これには莫大な計算コストがかかり、広範な産業への普及を妨げます。
この pa005 では、MWT を紹介します。MWT は、頻繁に使用される複数の単語の表現を単一のトークンとして表現することで、単語の境界を越えるマルチワード トークナイザーです。
MWT は、よりコンパクトで効率的なトークン化を生成し、次の 2 つの利点をもたらします。(1) 固定シーケンス長とバジェットを考慮した入力データのカバレッジが拡大するため、パフォーマンスが向上します。
(2) パフォーマンスの低下を無視してシーケンスの長さを削減できるため、推論がより高速かつ軽量になります。
私たちの結果は、MWT がより短い配列長にわたってより堅牢であるため、早期の配列切り詰めによって大幅な高速化が可能であることを示しています。

要約(オリジナル)

Large Language Models have proven highly successful at modelling a variety of tasks. However, this comes at a steep computational cost that hinders wider industrial uptake. In this pa005 per, we present MWT: a Multi-Word Tokenizer that goes beyond word boundaries by representing frequent multi-word expressions as single tokens. MWTs produce a more compact and efficient tokenization that yields two benefits: (1) Increase in performance due to a greater coverage of input data given a fixed sequence length and budget; (2) Faster and lighter inference due to the ability to reduce the sequence length with negligible drops in performance. Our results show that MWT is more robust across shorter sequence lengths, thus allowing for major speedups via early sequence truncation.

arxiv情報

著者 Leonidas Gee,Leonardo Rigutini,Marco Ernandes,Andrea Zugarini
発行日 2024-02-15 13:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク