Oracle Complexity Reduction for Model-free LQR: A Stochastic Variance-Reduced Policy Gradient Approach

要約

確率的分散低減政策勾配 (SVRPG) アプローチを介して、離散時間線形二次レギュレーター (LQR) 問題の $\epsilon$ 近似解を学習する問題を調査します。
ポリシー勾配法はモデルフリー LQR 問題の最適解に線形に収束することが証明されていますが、勾配推定における 2 点コスト クエリの実質的な要件は、特に 2 つの異なる制御入力でコスト関数評価を取得するアプリケーションでは扱いにくい場合があります。
構成には非常にコストがかかります。
この目的のために、私たちはオラクル効率的なアプローチを提案します。
私たちの方法は、デュアルループ分散低減アルゴリズムで 1 点推定と 2 点推定の両方を組み合わせます。
$\beta \in (0,1) の $O\left(\log\left(1/\epsilon\right)^{\beta}\right)$ の 2 点コスト情報のみを使用して近似最適解を達成します。
$。

要約(オリジナル)

We investigate the problem of learning an $\epsilon$-approximate solution for the discrete-time Linear Quadratic Regulator (LQR) problem via a Stochastic Variance-Reduced Policy Gradient (SVRPG) approach. Whilst policy gradient methods have proven to converge linearly to the optimal solution of the model-free LQR problem, the substantial requirement for two-point cost queries in gradient estimations may be intractable, particularly in applications where obtaining cost function evaluations at two distinct control input configurations is exceptionally costly. To this end, we propose an oracle-efficient approach. Our method combines both one-point and two-point estimations in a dual-loop variance-reduced algorithm. It achieves an approximate optimal solution with only $O\left(\log\left(1/\epsilon\right)^{\beta}\right)$ two-point cost information for $\beta \in (0,1)$.

arxiv情報

著者 Leonardo F. Toso,Han Wang,James Anderson
発行日 2023-09-19 15:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク