Symbolic Discovery of Optimization Algorithms

要約

アルゴリズム発見をプログラム検索として定式化する方法を提示し、それを適用してディープ ニューラル ネットワーク トレーニングの最適化アルゴリズムを発見します。
効率的な検索技術を活用して、無限でまばらなプログラム空間を探索します。
プロキシ タスクとターゲット タスクの間の大きな一般化のギャップを埋めるために、プログラムの選択と単純化の戦略も導入します。
私たちの方法は、シンプルで効果的な最適化アルゴリズム $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$ を発見します
\textbf{n}$tum}$)。
運動量のみを追跡するため、Adam よりもメモリ効率が高くなります。
適応オプティマイザーとは異なり、その更新は、符号演算によって計算された各パラメーターに対して同じ大きさになります。
Lion を、Adam や Adafactor などの広く使用されているオプティマイザーと比較して、さまざまなタスクでさまざまなモデルをトレーニングします。
画像分類では、Lion は ImageNet で ViT の精度を最大 2% 向上させ、JFT でトレーニング前の計算を最大 5 倍節約します。
視覚言語の対照学習では、ImageNet で 88.3% の $\textit{zero-shot}$ と 91.1% の $\textit{fine-tuning}$ の精度を達成し、以前の最高の結果をそれぞれ 2% と 0.1% 上回っています。
拡散モデルでは、Lion はより優れた FID スコアを達成し、トレーニング コンピューティングを最大 2.3 倍削減することで、Adam よりも優れています。
自己回帰、マスクされた言語モデリング、および微調整について、Lion は Adam と比較して同等またはそれ以上のパフォーマンスを示します。
Lion を分析した結果、パフォーマンスの向上はトレーニング バッチのサイズに応じて大きくなることがわかりました。
また、符号関数によって生成される更新のノルムが大きいため、Adam よりも小さい学習率が必要です。
さらに、Lion の制限を調べて、その改善が小さいか統計的に有意でないシナリオを特定します。
Lion の実装は公開されています。

要約(オリジナル)

We present a method to formulate algorithm discovery as program search, and apply it to discover optimization algorithms for deep neural network training. We leverage efficient search techniques to explore an infinite and sparse program space. To bridge the large generalization gap between proxy and target tasks, we also introduce program selection and simplification strategies. Our method discovers a simple and effective optimization algorithm, $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$). It is more memory-efficient than Adam as it only keeps track of the momentum. Different from adaptive optimizers, its update has the same magnitude for each parameter calculated through the sign operation. We compare Lion with widely used optimizers, such as Adam and Adafactor, for training a variety of models on different tasks. On image classification, Lion boosts the accuracy of ViT by up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and 91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms Adam by achieving a better FID score and reducing the training compute by up to 2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion exhibits a similar or better performance compared to Adam. Our analysis of Lion reveals that its performance gain grows with the training batch size. It also requires a smaller learning rate than Adam due to the larger norm of the update produced by the sign function. Additionally, we examine the limitations of Lion and identify scenarios where its improvements are small or not statistically significant. The implementation of Lion is publicly available.

arxiv情報

著者 Xiangning Chen,Chen Liang,Da Huang,Esteban Real,Kaiyuan Wang,Yao Liu,Hieu Pham,Xuanyi Dong,Thang Luong,Cho-Jui Hsieh,Yifeng Lu,Quoc V. Le
発行日 2023-02-13 20:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.NE パーマリンク