要約
この論文では、再現カーネル ヒルベルト空間 (RKHS) $H(\Omega)$ の集合で生じるいくつかの値関数近似の収束率を研究します。
最適な制御問題を特定のクラスのネイティブ空間にキャストすることにより、演算子方程式の強力な収束率が導出され、ポリシーの反復で現れるオフライン近似が可能になります。
値関数とコントローラーの近似における誤差の明示的な上限は、ネイティブ空間 $H(\Omega) の有限次元近似空間 $H_N$ に対するべき関数 $\mathcal{P}_{H,N}$ によって導出されます。
)$。
これらの境界は本質的に幾何学的なものであり、値関数の近似の収束に関するいくつかのよく知られた、現在では古典的な結果を改良したものです。
要約(オリジナル)
This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel Hilbert spaces (RKHS) $H(\Omega)$. By casting an optimal control problem in a specific class of native spaces, strong rates of convergence are derived for the operator equation that enables offline approximations that appear in policy iteration. Explicit upper bounds on error in value function and controller approximations are derived in terms of power function $\mathcal{P}_{H,N}$ for the space of finite dimensional approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric in nature and refine some well-known, now classical results concerning convergence of approximations of value functions.
arxiv情報
著者 | Ali Bouland,Shengyuan Niu,Sai Tej Paruchuri,Andrew Kurdila,John Burns,Eugenio Schuster |
発行日 | 2023-11-17 15:04:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google