Random Function Descent

要約

タイトル:Random Function Descent

要約:

– 機械学習では、勾配降下法がよく使われますが、適切なステップサイズを選択するには「ハイパーパラメータチューニング」が必要です。
– これは、Armijoの規則のようなバックトラック手順が、確率的な状況では品質評価がすべてのステップで使用できないためです。
– 最適化スキームは、テイラー近似を用いて動機付けられることができますが、テイラー近似を条件付き期待値(最適な$L^2$推定量)で置き換え、Random Function Descent(RFD)を提案します。
– Bayesian最適化で一般的な軽微な仮定の下で、RFDは勾配降下法と同じであることを証明しました。
– RFDは、確率的な状況でも計算可能なステップサイズを持ちます。我々は、合成ベンチマークでチューニングしていないAdamを打ち負かしました。
– チューニングされたAdamとのパフォーマンスギャップを縮小するために、チューニングされたAdamに匹敵するヒューリスティック拡張を提案しています。

要約(オリジナル)

While gradient based methods are ubiquitous in machine learning, selecting the right step size often requires ‘hyperparameter tuning’. This is because backtracking procedures like Armijo’s rule depend on quality evaluations in every step, which are not available in a stochastic context. Since optimization schemes can be motivated using Taylor approximations, we replace the Taylor approximation with the conditional expectation (the best $L^2$ estimator) and propose ‘Random Function Descent’ (RFD). Under light assumptions common in Bayesian optimization, we prove that RFD is identical to gradient descent, but with calculable step sizes, even in a stochastic context. We beat untuned Adam in synthetic benchmarks. To close the performance gap to tuned Adam, we propose a heuristic extension competitive with tuned Adam.

arxiv情報

著者 Felix Benning,Leif Döring
発行日 2023-05-02 12:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク