Target-based Surrogates for Stochastic Optimization

要約

(おそらく確率的な) 勾配の計算にコストがかかる関数を最小化することを検討します。
このような関数は、強化学習、模倣学習、敵対的トレーニングで広く使われています。
私たちのターゲット最適化フレームワークは、(高価な) 勾配計算を使用して、効率的に最小化できる \emph{ターゲット空間} (分類用の線形モデルによるロジット出力など) 内にサロゲート関数を構築します。
これにより、モデルに対する複数のパラメーターの更新が可能になり、勾配計算のコストが軽減されます。
フルバッチ設定では、サロゲートが損失のグローバルな上限であり、ブラックボックス最適化アルゴリズムを使用して (局所的に) 最小化できることを証明します。
結果として生じる多数化最小化アルゴリズムが、損失の定常点への収束を保証することを証明します。
次に、確率的設定でフレームワークをインスタンス化し、$SSO$ アルゴリズムを提案します。これは、ターゲット空間に投影された確率的勾配降下法とみなすことができます。
この関係により、凸関数を最小化するときの $SSO$ の理論的保証を証明することができます。
私たちのフレームワークでは、標準的な確率的最適化アルゴリズムを使用して、任意の決定論的最適化手法で最小化できるサロゲートを構築できます。
私たちのフレームワークを評価するために、教師あり学習と模倣学習の問題のセットを検討します。
私たちの実験は、ターゲットの最適化の利点と $SSO$ の有効性を示しています。

要約(オリジナル)

We consider minimizing functions for which it is expensive to compute the (possibly stochastic) gradient. Such functions are prevalent in reinforcement learning, imitation learning and adversarial training. Our target optimization framework uses the (expensive) gradient computation to construct surrogate functions in a \emph{target space} (e.g. the logits output by a linear model for classification) that can be minimized efficiently. This allows for multiple parameter updates to the model, amortizing the cost of gradient computation. In the full-batch setting, we prove that our surrogate is a global upper-bound on the loss, and can be (locally) minimized using a black-box optimization algorithm. We prove that the resulting majorization-minimization algorithm ensures convergence to a stationary point of the loss. Next, we instantiate our framework in the stochastic setting and propose the $SSO$ algorithm, which can be viewed as projected stochastic gradient descent in the target space. This connection enables us to prove theoretical guarantees for $SSO$ when minimizing convex functions. Our framework allows the use of standard stochastic optimization algorithms to construct surrogates which can be minimized by any deterministic optimization method. To evaluate our framework, we consider a suite of supervised learning and imitation learning problems. Our experiments indicate the benefits of target optimization and the effectiveness of $SSO$.

arxiv情報

著者 Jonathan Wilder Lavington,Sharan Vaswani,Reza Babanezhad,Mark Schmidt,Nicolas Le Roux
発行日 2023-06-08 17:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク