要約
従来の適応オプティマイザー (Adam など) の代わりに学習可能な更新ルールを使用すると、ニューラル ネットワークのトレーニングを高速化できます。
ただし、学習可能な更新ルールは、トレーニングや使用にコストがかかり、不安定になる可能性があります。
トレーニングを高速化するために最近提案されたよりシンプルなアプローチは、ほとんどの最適化ステップで Adam を使用し、数ステップごとにのみ定期的にナウキャスト (将来を予測) パラメーターを使用することです。
私たちは、ニューロン インタラクションとナウキャスティング (NiNo) ネットワークによってこのアプローチを改善します。
NiNo は、ニューロンの接続性とグラフ ニューラル ネットワークを活用して、複数のタスクにわたる一連のトレーニング軌跡から教師付き方法で学習することで、パラメーターをより正確にナウキャストします。
トランスフォーマーなどの一部のネットワークでは、ニューロンの接続が自明ではないことを示します。
ニューロンの接続を正確にモデル化することで、NiNo は視覚および言語タスクにおいて Adam トレーニングを最大 50% 高速化できます。
要約(オリジナル)
Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. A simpler recently proposed approach to accelerate training is to use Adam for most of the optimization steps and periodically, only every few steps, nowcast (predict future) parameters. We improve this approach by Neuron interaction and Nowcasting (NiNo) networks. NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters by learning in a supervised way from a set of training trajectories over multiple tasks. We show that in some networks, such as Transformers, neuron connectivity is non-trivial. By accurately modeling neuron connectivity, we allow NiNo to accelerate Adam training by up to 50\% in vision and language tasks.
arxiv情報
| 著者 | Boris Knyazev,Abhinav Moudgil,Guillaume Lajoie,Eugene Belilovsky,Simon Lacoste-Julien |
| 発行日 | 2024-09-06 17:55:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google