Stochastic Zeroth Order Gradient and Hessian Estimators: Variance Reduction and Refined Bias Bounds

要約

$\mathbb{R}^n$ の実数値関数の確率的ゼロ次勾配とヘッセ推定量を研究します。
ランダムな直交方向に沿って有限差分を取ることにより、確率的有限差分推定量の分散を大幅に削減できることを示します。
特に、$ \Theta \left( k \right) $ スティーフェル多様体からサンプリングされたランダムな方向 $ \text{St} (n,k) $ と有限差分粒度を使用する場合、滑らかな関数の推定量を設計します。
$\delta$、勾配推定量の分散は $ \mathcal{O} \left( \left( \frac{n}{k} – 1 \right) + \left( \frac{n^2}
{k} – n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $ であり、ヘッセ行列推定量の分散は $\mathcal{O} \left によって制限されます
( \left( \frac{n^2}{k^2} – 1 \right) + \left( \frac{n^4}{k^2} – n^2 \right) \delta^2 + \
frac{n^4 \delta^4}{k^2} \right) $.
$k = n$ の場合、分散は無視できるほど小さくなります。
さらに、推定量のバイアス範囲を改善しました。
平滑関数 $f$ の勾配推定量とヘッセ推定量の両方のバイアスは、次数 $\mathcal{O} \left( \delta^2 \Gamma \right)$ です。ここで、$\delta$ は有限差分粒度であり、
$ \Gamma $ は $f$ の高階導関数に依存します。
私たちの結果は、経験的な観察によって証明されています。

要約(オリジナル)

We study stochastic zeroth order gradient and Hessian estimators for real-valued functions in $\mathbb{R}^n$. We show that, via taking finite difference along random orthogonal directions, the variance of the stochastic finite difference estimators can be significantly reduced. In particular, we design estimators for smooth functions such that, if one uses $ \Theta \left( k \right) $ random directions sampled from the Stiefel’s manifold $ \text{St} (n,k) $ and finite-difference granularity $\delta$, the variance of the gradient estimator is bounded by $ \mathcal{O} \left( \left( \frac{n}{k} – 1 \right) + \left( \frac{n^2}{k} – n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $, and the variance of the Hessian estimator is bounded by $\mathcal{O} \left( \left( \frac{n^2}{k^2} – 1 \right) + \left( \frac{n^4}{k^2} – n^2 \right) \delta^2 + \frac{n^4 \delta^4 }{k^2} \right) $. When $k = n$, the variances become negligibly small. In addition, we provide improved bias bounds for the estimators. The bias of both gradient and Hessian estimators for smooth function $f$ is of order $\mathcal{O} \left( \delta^2 \Gamma \right)$, where $\delta$ is the finite-difference granularity, and $ \Gamma $ depends on high order derivatives of $f$. Our results are evidenced by empirical observations.

arxiv情報

著者 Yasong Feng,Tianyu Wang
発行日 2023-03-30 13:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク