Policy Gradient Optimal Correlation Search for Variance Reduction in Monte Carlo simulation and Maximum Optimal Transport


$f(X_T)$ を推定する際の分散削減のための新しいアルゴリズムを提案します。ここで、$X$ は確率微分方程式の解であり、$f$ はテスト関数です。
新しい推定量は $(f(X^1_T) + f(X^2_T))/2$ です。ここで、$X^1$ と $X^2$ は $X$ と同じ限界則を持ちますが、経路的に相関しているため、
最適な相関関数 $\rho$ はディープ ニューラル ネットワークによって近似され、ポリシー勾配および強化学習手法によって $(X^1, X^2)$ の軌道に沿って校正されます。


We propose a new algorithm for variance reduction when estimating $f(X_T)$ where $X$ is the solution to some stochastic differential equation and $f$ is a test function. The new estimator is $(f(X^1_T) + f(X^2_T))/2$, where $X^1$ and $X^2$ have same marginal law as $X$ but are pathwise correlated so that to reduce the variance. The optimal correlation function $\rho$ is approximated by a deep neural network and is calibrated along the trajectories of $(X^1, X^2)$ by policy gradient and reinforcement learning techniques. Finding an optimal coupling given marginal laws has links with maximum optimal transport.


著者 Pierre Bras,Gilles Pagès
発行日 2023-09-15 15:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク