要約
この研究では、優れたパフォーマンスを達成するために必要なトレーニング手順を削減することを目的として、言語モデル (LM) の学習を改善するための一般原則を研究します。
具体的には、LM の最適な学習のための理論を紹介します。
まず、「可逆圧縮としての LM トレーニング」ビューでデータ圧縮率を最大化することで LM 学習を最適化する目標を提案します。
次に、学習法則と呼ばれる定理を導き出し、目的に応じた最適な学習プロセスにおけるダイナミクスの特性を明らかにします。
次に、この定理は、線形分類と現実世界の言語モデリング タスクに関する実験によって検証されます。
最後に、LM の最適な学習は本質的に LM のスケーリング則の係数の改善から生じることを経験的に検証し、実用的な学習加速手法の設計にとって大きな期待と重要性を示しています。
私たちのコードは https://aka.ms/LearningLaw にあります。
要約(オリジナル)
This work studies the general principles of improving the learning of language models (LMs), which aims at reducing the necessary training steps for achieving superior performance. Specifically, we present a theory for the optimal learning of LMs. We first propose an objective that optimizes LM learning by maximizing the data compression ratio in an ‘LM-training-as-lossless-compression’ view. Then, we derive a theorem, named Learning Law, to reveal the properties of the dynamics in the optimal learning process under our objective. The theorem is then validated by experiments on a linear classification and a real-world language modeling task. Finally, we empirically verify that the optimal learning of LMs essentially stems from the improvement of the coefficients in the scaling law of LMs, indicating great promise and significance for designing practical learning acceleration methods. Our code can be found at https://aka.ms/LearningLaw.
arxiv情報
著者 | Yuxian Gu,Li Dong,Yaru Hao,Qingxiu Dong,Minlie Huang,Furu Wei |
発行日 | 2024-02-27 18:52:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google