要約
1951 年に Robbins と Monro によって導入された確率的近似 (SA) アルゴリズムは、$\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$ の形式の方程式を解くための標準的な方法でした。
$\mathbf{f}(\cdot)$ のノイズの多い測定値のみが利用可能です。
ある関数 $J(\cdot)$ に対して $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ の場合、SA は次の目的にも使用できます。
$J(\cdot)$ の静止点を見つけます。
多くの文献では、誤差項 ${\boldsymbol {xi}}_{t+1}$ の条件付き平均はゼロであり、その条件付き分散は $t$ の関数として制限されていると想定されています (ただし、そうではありません)
必ず ${\boldsymbol {\theta}}_t$) に関して。
また、ほとんどの場合、「同期」SA に重点が置かれており、$t$ のたびに、${\boldsymbol {\theta}}_t$ の \textit{every} コンポーネントが更新されます。
長年にわたり、SA はさまざまな分野に適用されてきましたが、このホワイト ペーパーではそのうちの 2 つ、凸および非凸の最適化と強化学習 (RL) に焦点を当てます。
結局のところ、これらのアプリケーションでは、上記の仮定が常に当てはまるわけではありません。
ゼロ次法では、誤差にはゼロ平均も有界条件分散もありません。
本論文では、非ゼロの条件付き平均および/または無制限の条件付き分散を伴う誤差、および非同期 SA を包含するように SA 理論を拡張します。
さらに、アルゴリズムの収束率の推定値を導き出します。
次に、新しい結果を非凸最適化の問題と、RL で最近登場した領域であるマルコヴィアン SA に適用します。
これらの状況で SA が収束することを証明し、推定収束率を最大化するための「最適なステップ サイズ シーケンス」を計算します。
要約(オリジナル)
The Stochastic Approximation (SA) algorithm introduced by Robbins and Monro in 1951 has been a standard method for solving equations of the form $\mathbf{f}({\boldsymbol {\theta}}) = \mathbf{0}$, when only noisy measurements of $\mathbf{f}(\cdot)$ are available. If $\mathbf{f}({\boldsymbol {\theta}}) = \nabla J({\boldsymbol {\theta}})$ for some function $J(\cdot)$, then SA can also be used to find a stationary point of $J(\cdot)$. In much of the literature, it is assumed that the error term ${\boldsymbol {xi}}_{t+1}$ has zero conditional mean, and that its conditional variance is bounded as a function of $t$ (though not necessarily with respect to ${\boldsymbol {\theta}}_t$). Also, for the most part, the emphasis has been on “synchronous” SA, whereby, at each time $t$, \textit{every} component of ${\boldsymbol {\theta}}_t$ is updated. Over the years, SA has been applied to a variety of areas, out of which two are the focus in this paper: Convex and nonconvex optimization, and Reinforcement Learning (RL). As it turns out, in these applications, the above-mentioned assumptions do not always hold. In zero-order methods, the error neither has zero mean nor bounded conditional variance. In the present paper, we extend SA theory to encompass errors with nonzero conditional mean and/or unbounded conditional variance, and also asynchronous SA. In addition, we derive estimates for the rate of convergence of the algorithm. Then we apply the new results to problems in nonconvex optimization, and to Markovian SA, a recently emerging area in RL. We prove that SA converges in these situations, and compute the “optimal step size sequences” to maximize the estimated rate of convergence.
arxiv情報
著者 | Rajeeva L. Karandikar,M. Vidyasagar |
発行日 | 2023-12-05 15:22:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google