要約
損失スパイクは、大規模な言語モデルの事前トレーニング中によく発生します。
スパイクは大規模な言語モデルのパフォーマンスを低下させ、場合によっては事前トレーニングを台無しにします。
事前トレーニングには膨大な計算量が必要なため、このような急増を避ける必要があります。
損失スパイクの原因を調査するために、この研究では内部層の勾配に焦点を当てます。
理論的な分析を通じて、爆発する勾配の 2 つの原因を紹介し、爆発を防ぐための要件を示します。
さらに、要件を満たす方法として、初期化メソッドと簡単なエンベディング変更の組み合わせを紹介します。
理論的な分析を実証的に検証するために、さまざまな実験を行います。
実験結果は、この組み合わせがトレーニング前のスパイクの防止に効果的であることを示しています。
要約(オリジナル)
The loss spike often occurs during pre-training of a large language model. The spikes degrade the performance of a large language model, and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. To investigate a cause of loss spikes, we focus on gradients of internal layers in this study. Through theoretical analyses, we introduce two causes of the exploding gradients, and provide requirements to prevent the explosion. In addition, we introduce the combination of the initialization method and a simple modification to embeddings as a method to satisfy the requirements. We conduct various experiments to verify our theoretical analyses empirically. Experimental results indicate that the combination is effective in preventing spikes during pre-training.
arxiv情報
著者 | Sho Takase,Shun Kiyono,Sosuke Kobayashi,Jun Suzuki |
発行日 | 2023-12-28 08:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google