要約
深いニューラルネットワークのトレーニングは、勾配ベースの最適化のitera2の性質のために、計算集中のままです。
勾配フローマッチング(GFM)を提案します。これは、学習したオプティマイザー認識ベクターフィールドによって支配された動的システムとしてニューラルネットワークトレーニングを扱う連続時間モデリングフレームワークです。
条件付きフローマッチングを活用することにより、GFMはSGD、Adam、RMSPropなどのオプティマイザーの基礎となる更新ルールをキャプチャし、収束に向かって重量軌跡のスムーズな外挿を可能にします。
ブラックボックスシーケンスモデルとは異なり、GFMは、勾配ベースの更新の構造的知識を学習目標に組み込み、部分トレーニングシーケンスからの最終ウェイトの正確な予測を促進します。
経験的に、GFMは、変圧器ベースのモデルと競合する予測精度を達成し、LSTMやその他の古典的なベースラインを大幅に上回っています。
さらに、GFMはニューラルアーキテクチャと初期化全体に一般化され、最適化ダイナミクスを研究し、収束予測を加速するための統一されたフレームワークを提供します。
要約(オリジナル)
Training deep neural networks remains computationally intensive due to the itera2 tive nature of gradient-based optimization. We propose Gradient Flow Matching (GFM), a continuous-time modeling framework that treats neural network training as a dynamical system governed by learned optimizer-aware vector fields. By leveraging conditional flow matching, GFM captures the underlying update rules of optimizers such as SGD, Adam, and RMSprop, enabling smooth extrapolation of weight trajectories toward convergence. Unlike black-box sequence models, GFM incorporates structural knowledge of gradient-based updates into the learning objective, facilitating accurate forecasting of final weights from partial training sequences. Empirically, GFM achieves forecasting accuracy that is competitive with Transformer-based models and significantly outperforms LSTM and other classical baselines. Furthermore, GFM generalizes across neural architectures and initializations, providing a unified framework for studying optimization dynamics and accelerating convergence prediction.
arxiv情報
著者 | Xiao Shou,Yanna Ding,Jianxi Gao |
発行日 | 2025-05-26 17:03:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google