SentenceVAE: Faster, Longer and More Accurate Inference with Next-sentence Prediction for Large Language Models

要約

現在の大規模言語モデル(LLM)は、推論に次トークン予測法を用いることが主流であり、処理速度を著しく低下させている。本論文では、LLMの推論効率を向上させることを目的として、次文予測と呼ばれる新しい推論手法を紹介する。SentenceVAEはエンコーダとデコーダからなる小さなモデルである。エンコーダは文中の情報を単一のトークンに効果的に凝縮し、デコーダはこの圧縮されたデータを元の文の形に再構成する。SentenceVAEをLLMの入力層と出力層に統合することで、文単位の推論アプローチを採用する文レベルLLM(SLLM)を開発し、推論速度を著しく高速化する。また、SentenceVAEはテキストを文に分割することで元の意味内容の完全性を維持し、推論速度を向上させながら精度を保つ。従来のLLMと比較して、SLLMは同等の文脈の長さに対してより少ないトークンを処理するため、自己アテンション計算のメモリ需要を大幅に削減し、より長い文脈の取り扱いを容易にする。我々の実験結果は、この手法により推論速度を204~365%向上させ、複雑度(PPL)を元の指標の46~75%に減少させ、同じ文脈長でメモリオーバーヘッドを86~91%減少させることができることを明らかにした。このアプローチの利点は、モデルパラメータを増やすことでさらに増幅される。

要約(オリジナル)

Contemporary large language models (LLMs) predominantly utilize a next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aimed at enhancing the inference efficiency of LLMs. We present SentenceVAE, a tiny model consisting of an encoder and a decoder. The encoder effectively condenses the information within a sentence into a singular token, while the decoder reconstructs this compressed data back into its original sentential form. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference approach, markedly accelerating inference speeds. SentenceVAE also maintains the integrity of the original semantic content by segmenting the text into sentences, thereby preserving accuracy while boosting inference speeds. Compared to traditional LLMs, SLLMs process fewer tokens over equivalent context lengths, significantly reducing memory demands for Self-Attention computations and facilitating the handling of longer contexts. Our experimental findings reveal that this method can increase inference speeds by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the same context length. The advantages of this approach are further amplified with increases in model parameters.

arxiv情報

著者 Hongjun An,Yifan Chen,Xiaozhen Qiao,Zhe Sun,Xuelong Li
発行日 2024-08-01 15:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク