要約
大規模な深いニューラルネットワークのトレーニングに固有の計算上の課題に対処することは、現代の機械学習研究において重要な努力です。
以前の取り組みは、勢いを伴う勾配降下、学習率のスケジューリング、体重の正則化などの技術を通じてトレーニング効率を高めることに焦点を当ててきましたが、モデルサイズが拡大し続けるにつれて、さらなるイノベーションの需要が急成長し続けています。
この研究では、長期の時系列予測技術を活用することにより、従来のアプローチから分岐する新しいフレームワークを紹介します。
私たちの方法は、初期および最終的な重量値のみを大文字にして、複雑なモデルアーキテクチャの合理化された代替品を提供します。
また、アプローチの予測パフォーマンスを向上させるために調整された新しい正規者を紹介します。
顕著な大規模な言語モデルDistilbertを含む、合成重量シーケンスと現実世界の深い学習アーキテクチャで行われた経験的評価は、精度と計算効率を予測するという点での方法の優位性を示しています。
特に、私たちのフレームワークは、最小限の計算オーバーヘッドを必要としながら、パフォーマンスの向上を紹介するため、多様なタスクとアーキテクチャ全体でトレーニングプロセスを加速するための有望な手段を提示します。
要約(オリジナル)
Addressing the computational challenges inherent in training large-scale deep neural networks remains a critical endeavor in contemporary machine learning research. While previous efforts have focused on enhancing training efficiency through techniques such as gradient descent with momentum, learning rate scheduling, and weight regularization, the demand for further innovation continues to burgeon as model sizes keep expanding. In this study, we introduce a novel framework which diverges from conventional approaches by leveraging long-term time series forecasting techniques. Our method capitalizes solely on initial and final weight values, offering a streamlined alternative for complex model architectures. We also introduce a novel regularizer that is tailored to enhance the forecasting performance of our approach. Empirical evaluations conducted on synthetic weight sequences and real-world deep learning architectures, including the prominent large language model DistilBERT, demonstrate the superiority of our method in terms of forecasting accuracy and computational efficiency. Notably, our framework showcases improved performance while requiring minimal additional computational overhead, thus presenting a promising avenue for accelerating the training process across diverse tasks and architectures.
arxiv情報
著者 | Xiao Shou,Debarun Bhattacharjya,Yanna Ding,Chen Zhao,Rui Li,Jianxi Gao |
発行日 | 2025-05-05 15:10:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google