Accelerating Training with Neuron Interaction and Nowcasting Networks

要約

古典的な適応オプティマイザ(Adamなど)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークの学習を加速できる。しかし、学習可能な更新ルールは、学習や使用にコストがかかり、不安定になる可能性がある。最近、Jangら(2023)は、ウェイト・ナウキャスター・ネットワーク(WNN)に基づく、より単純な学習高速化アプローチを提案した。彼らのアプローチでは、最適化ステップのほとんどにAdamが使われ、数ステップごとにだけ定期的に、WNNがパラメータをナウキャスト(近未来を予測)する。我々は、ニューロン相互作用とナウキャスティング(NiNo)ネットワークを提案することで、WNNを改良する。WNNとは対照的に、NiNoはニューロンの結合性とグラフニューラルネットワークを活用し、より正確にパラメータをナウキャストする。さらに、Transformersのようないくつかのネットワークでは、ニューロンの結合性を正確にモデル化することが困難であることを示す。NiNoは、視覚と言語タスクにおいて、アダムの学習を最大50%加速することができる。

要約(オリジナル)

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. Recently, Jang et al. (2023) proposed a simpler approach to accelerate training based on weight nowcaster networks (WNNs). In their approach, Adam is used for most of the optimization steps and periodically, only every few steps, a WNN nowcasts (predicts near future) parameters. We improve WNNs by proposing neuron interaction and nowcasting (NiNo) networks. In contrast to WNNs, NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters. We further show that in some networks, such as Transformers, modeling neuron connectivity accurately is challenging. We address this and other limitations, which allows NiNo to accelerate Adam training by up to 50% in vision and language tasks.

arxiv情報

著者 Boris Knyazev,Abhinav Moudgil,Guillaume Lajoie,Eugene Belilovsky,Simon Lacoste-Julien
発行日 2024-10-03 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク