LBPE: Long-token-first Tokenization to Improve Large Language Models

要約

大規模言語モデル (LLM) でバイト ペア エンコーディング (BPE) が広く使用されているため、サブワード単位の堅牢な処理が容易になり、語彙外の単語の問題が回避されます。
その成功にもかかわらず、重要な課題が依然として残っています。長いトークンは意味情報が豊富であるため、短いトークンに比べてトークン化されたデータセットでの出現回数が少なく、その結果、異なるトークン間で不均衡な学習の問題が発生する可能性があります。
これに対処するために、エンコード プロセス中に長いトークンを優先する LBPE を提案します。
LBPE は、語彙内のランクではなく、トークンの長さの逆のランクに従ってトークンを生成し、エンコード プロセス中に長いトークンに高い優先順位を与えます。
その結果、LBPE は短いトークンと長いトークンの間の頻度の差を平滑化し、学習の不均衡を軽減します。
さまざまな言語モデリング タスクにわたる広範な実験により、LBPE が元の BPE よりも一貫して優れたパフォーマンスを示し、その有効性が十分に実証されています。

要約(オリジナル)

The prevalent use of Byte Pair Encoding (BPE) in Large Language Models (LLMs) facilitates robust handling of subword units and avoids issues of out-of-vocabulary words. Despite its success, a critical challenge persists: long tokens, rich in semantic information, have fewer occurrences in tokenized datasets compared to short tokens, which can result in imbalanced learning issue across different tokens. To address that, we propose LBPE, which prioritizes long tokens during the encoding process. LBPE generates tokens according to their reverse ranks of token length rather than their ranks in the vocabulary, granting longer tokens higher priority during the encoding process. Consequently, LBPE smooths the frequency differences between short and long tokens, and thus mitigates the learning imbalance. Extensive experiments across diverse language modeling tasks demonstrate that LBPE consistently outperforms the original BPE, well demonstrating its effectiveness.

arxiv情報

著者 Haoran Lian,Yizhe Xiong,Zijia Lin,Jianwei Niu,Shasha Mo,Hui Chen,Peng Liu,Guiguang Ding
発行日 2024-11-08 12:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク