要約
学んだオプティマザー(LOS)は、ニューラルネットワークの壁1杯のトレーニング時間を大幅に短縮でき、トレーニングコストを大幅に削減できます。
ただし、特にメタトレーニング中に見られるネットワークよりも広いトレーニングネットワークの場合、目に見えないタスク(メタジェネラライス)を最適化するのに苦労する可能性があります。
これに対処するために、2つの最先端の学習オプティマイザーアーキテクチャの最大更新パラメーター化($ \ MU $ P)を導き出し、$ \ MU $パラメーター化LOS($ \ MU $ LOS)のシンプルなメタトレーニングレシピを提案します。
私たちの経験的評価は、既存の作業で訓練されているため、標準パラメーター化(SP)で訓練されたLOSと比較した場合、私たちのレシピでLOSメタトレーニングがメタジェネラル化を大幅に改善した場合、より広い目に見えないタスクに大幅に改善することを示しています。
また、レシピで訓練された$ \ mu $ losは、SPロスと比較した場合、より長いトレーニングホライゾン($ 25 \ times $ $ $ training)へのより深いネットワーク($ 5 \ times $メタトレーニング)へのメタジェネラル化を予期せず改善し、驚くべき一般化を示しています。
要約(オリジナル)
Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they can struggle to optimize unseen tasks (meta-generalize), especially when training networks wider than those seen during meta-training. To address this, we derive the Maximal Update Parametrization ($\mu$P) for two state-of-the-art learned optimizer architectures and propose a simple meta-training recipe for $\mu$-parameterized LOs ($\mu$LOs). Our empirical evaluation demonstrates that LOs meta-trained with our recipe substantially improve meta-generalization to wider unseen tasks when compared to LOs trained under standard parametrization (SP), as they are trained in existing work. We also empirically observe that $\mu$LOs trained with our recipe exhibit unexpectedly improved meta-generalization to deeper networks ($5\times$ meta-training) and surprising generalization to much longer training horizons ($25\times$ meta-training) when compared to SP LOs.
arxiv情報
著者 | Benjamin Thérien,Charles-Étienne Joseph,Boris Knyazev,Edouard Oyallon,Irina Rish,Eugene Belilovsky |
発行日 | 2025-06-04 17:04:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google