要約
トークン化は大規模な言語モデル(LLM)の基本的なコンポーネントですが、モデルのスケーリングとパフォーマンスへの影響は完全には検討されていません。
この論文では、入力と出力の語彙を分離して言語モデリングのパフォーマンスを向上させる新しいフレームワークである、過剰なトークン化されたトランスを紹介します。
具体的には、私たちのアプローチは、マルチグラムトークンを活用するために入力語彙を拡大します。
広範な実験を通じて、入力の語彙サイズとトレーニングの損失との対数線形関係を明らかにし、モデルサイズに関係なく、より大きな入力語彙がモデルのパフォーマンスを一貫して強化することを示しています。
大量の入力語彙を使用して、追加コストのないダブルサイズのベースラインに匹敵するパフォーマンスを実現します。
私たちの調査結果は、スケーリング法におけるトークン化の重要性を強調し、トークン剤設計のための実用的な洞察を提供し、より効率的で強力なLLMへの道を開いています。
要約(オリジナル)
Tokenization is a fundamental component of large language models (LLMs), yet its influence on model scaling and performance is not fully explored. In this paper, we introduce Over-Tokenized Transformers, a novel framework that decouples input and output vocabularies to improve language modeling performance. Specifically, our approach scales up input vocabularies to leverage multi-gram tokens. Through extensive experiments, we uncover a log-linear relationship between input vocabulary size and training loss, demonstrating that larger input vocabularies consistently enhance model performance, regardless of model size. Using a large input vocabulary, we achieve performance comparable to double-sized baselines with no additional cost. Our findings highlight the importance of tokenization in scaling laws and provide practical insight for tokenizer design, paving the way for more efficient and powerful LLMs.
arxiv情報
著者 | Hongzhi Huang,Defa Zhu,Banggu Wu,Yutao Zeng,Ya Wang,Qiyang Min,Xun Zhou |
発行日 | 2025-01-28 14:15:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google