Symbolic Discovery of Optimization Algorithms

要約

タイトル:最適化アルゴリズムの象徴的発見

要約:深層ニューラルネットワークのトレーニングのための最適化アルゴリズムを発見するために、アルゴリズム発見をプログラム検索として定式化する方法を提案する。効率的な検索技術を使用して、無限で疎なプログラム空間を探索する。プロキシとターゲットタスク間の大きな汎化ギャップを埋めるために、プログラム選択と簡素化戦略を導入する。簡潔で効果的な最適化アルゴリズム、Lionを発見し、Adamよりもメモリ効率が高く、勾配の大きさが逐次的に計算される適応型最適化アルゴリズムとは異なり、逐次的に更新し、各パラメータに同じ大きさの勾配を与えるという点が異なる。Lionを広く使われているAdamやAdafactorなどの最適化アルゴリズムと比較し、異なるタスクのモデルのトレーニングを行う。Lionは、ImageNet上のViTの精度を最大2%向上させ、JFTで最大5倍の事前トレーニングを省く。また、画像と言語のコントラスト学習では、ImageNetでのゼロショット精度が88.3%、ファインチューニング精度が91.1%で、先行研究よりも2%と0.1%向上した。拡散モデルでは、LionはFIDスコアを向上し、トレーニングの計算量を最大2.3倍削減した。自己回帰的、マスクされた言語モデル、ファインチューニングにおいて、LionはAdamと同等または優れたパフォーマンスを発揮する。Lionの解析では、トレーニングバッチサイズが大きいほど、性能改善が増加すること、サイン関数の更新による大きな規範により、Adamよりも小さな学習率が必要であることが明らかになった。さらに、Lionの限界を調べ、その改善が小さい場合や統計的に有意でない場合を特定した。Lionは、Google検索広告CTRモデルなどのさまざまなプロダクションシステムで成功裏に展開されている。

要約(オリジナル)

We present a method to formulate algorithm discovery as program search, and apply it to discover optimization algorithms for deep neural network training. We leverage efficient search techniques to explore an infinite and sparse program space. To bridge the large generalization gap between proxy and target tasks, we also introduce program selection and simplification strategies. Our method discovers a simple and effective optimization algorithm, $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$). It is more memory-efficient than Adam as it only keeps track of the momentum. Different from adaptive optimizers, its update has the same magnitude for each parameter calculated through the sign operation. We compare Lion with widely used optimizers, such as Adam and Adafactor, for training a variety of models on different tasks. On image classification, Lion boosts the accuracy of ViT by up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and 91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms Adam by achieving a better FID score and reducing the training compute by up to 2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion exhibits a similar or better performance compared to Adam. Our analysis of Lion reveals that its performance gain grows with the training batch size. It also requires a smaller learning rate than Adam due to the larger norm of the update produced by the sign function. Additionally, we examine the limitations of Lion and identify scenarios where its improvements are small or not statistically significant. Lion is also successfully deployed in production systems such as Google search ads CTR model.

arxiv情報

著者 Xiangning Chen,Chen Liang,Da Huang,Esteban Real,Kaiyuan Wang,Yao Liu,Hieu Pham,Xuanyi Dong,Thang Luong,Cho-Jui Hsieh,Yifeng Lu,Quoc V. Le
発行日 2023-05-08 21:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.NE パーマリンク