要約
大規模言語モデル (LLM) が言語の理解と生成において目覚ましい進歩を遂げるにつれて、そのトレーニング効率が重大な懸念事項になっています。
従来、LLM はシーケンス内の次のトークンを予測するようにトレーニングされてきました。
トークンレベルのトレーニングは成功しましたが、大量のトークンを処理する必要があるため、かなりの計算コストが発生します。
この問題を軽減するために、このホワイト ペーパーでは、複数のトークンを 1 つのパッチに圧縮することでシーケンスの長さを短縮する、LLM のパッチレベルのトレーニングを導入します。
パッチレベルのトレーニング中に、言語モデルに短いパッチ シーケンスを供給し、次のパッチを予測するようにトレーニングします。これにより、大幅に削減された計算コストでトレーニング データの大部分が処理されます。
これに続いて、モデルは推論モードに合わせて残りのトレーニング データに対してトークンレベルのトレーニングを続けます。
さまざまなモデル (3 億 7000 万~2.7B パラメーター) での実験により、パッチレベルのトレーニングでは、トークンレベルのトレーニングと比較してモデルのパフォーマンスを損なうことなく、全体の計算コストを 0.5$\times$ に削減できることが実証されました。
ソースコード: \url{https://github.com/shaochenze/PatchTrain}。
要約(オリジナル)
As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5$\times$, without compromising the model performance compared to token-level training. Source code: \url{https://github.com/shaochenze/PatchTrain}.
arxiv情報
著者 | Chenze Shao,Fandong Meng,Jie Zhou |
発行日 | 2024-09-13 03:07:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google