Training LLMs over Neurally Compressed Text

要約

本稿では、高度に圧縮されたテキストに対して大規模言語モデル(LLM)を学習させるというアイデアを探求する。標準的なサブワード・トークナイザーはテキストをわずかな倍率で圧縮するが、ニューラル・テキスト圧縮器ははるかに高い圧縮率を達成できる。もしニューラル圧縮されたテキストでLLMを直接学習できれば、学習効率や処理効率が向上するだけでなく、長いテキストの処理も容易になる。この目標に対する主な障害は、強力な圧縮は学習に適さない不透明な出力を生成する傾向があることである。特に、算術符号化で圧縮されたテキストは、LLMでは学習しにくい。これを克服するために、我々はEqual-Info Windowsを提案する。Equal-Info Windowsは、テキストを同じビット長に圧縮されるブロックに分割する新しい圧縮技術である。この方法を用いて、神経的に圧縮されたテキストに対する効果的な学習を実証し、その学習はスケールとともに改善され、バイトレベルのベースラインを、当惑度と推論速度のベンチマークで大きく上回る。本手法は、同じパラメータ数で学習したモデルにおいて、サブワード・トークナイザーよりも処理能力が劣るが、シーケンス長が短いという利点がある。より短い配列長はより少ない自己回帰生成ステップを必要とし、待ち時間を短縮する。最後に、学習可能性に寄与する特性について広範な分析を行い、高圧縮トークナイザーの性能をさらに向上させる方法について具体的な提案を行う。

要約(オリジナル)

In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\’ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

arxiv情報

著者 Brian Lester,Jaehoon Lee,Alex Alemi,Jeffrey Pennington,Adam Roberts,Jascha Sohl-Dickstein,Noah Constant
発行日 2024-04-04 17:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク