Is Scaling Learned Optimizers Worth It? Evaluating The Value of VeLO’s 4000 TPU Months

要約

私たちは、汎用の「基礎」オプティマイザーをトレーニングするこれまでで最大規模の試みである VeLO (versatile learning optimizer) を分析します。
VeLO は、ハイパーパラメーターを使用せずに新しい問題に一般化でき、Adam などの業界標準を上回るパフォーマンスを発揮するオプティマイザーを作成することを目標に、4,000 TPU か月を超える数千の機械学習タスクでトレーニングされました。
私たちは、MLCommons オプティマイザー ベンチマーク スイートで VeLO を独自に評価しています。
当初の主張に反して、(1) VeLO には、問題固有の調整が必要な重要なハイパーパラメータがある、(2) VeLO は、見つかったソリューションの品質において競合他社を必ずしも上回るわけではない、(3) VeLO は競合するオプティマイザよりも高速ではないことがわかりました。
トレーニングロスを軽減します。
これらの観察は、VeLO の一般性と、VeLO のトレーニングへの投資の価値に疑問を投げかけます。

要約(オリジナル)

We analyze VeLO (versatile learned optimizer), the largest scale attempt to train a general purpose ‘foundational’ optimizer to date. VeLO was trained on thousands of machine learning tasks using over 4000 TPU months with the goal of producing an optimizer capable of generalizing to new problems while being hyperparameter free, and outperforming industry standards such as Adam. We independently evaluate VeLO on the MLCommons optimizer benchmark suite. We find that, contrary to initial claims: (1) VeLO has a critical hyperparameter that needs problem-specific tuning, (2) VeLO does not necessarily outperform competitors in quality of solution found, and (3) VeLO is not faster than competing optimizers at reducing the training loss. These observations call into question VeLO’s generality and the value of the investment in training it.

arxiv情報

著者 Fady Rezk,Antreas Antoniou,Henry Gouk,Timothy Hospedales
発行日 2023-10-27 15:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク