Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs

要約

単一の個別に観察されたエルゴジック軌道を使用して、連続時間マルコフ拡散プロセスの値関数の推定を研究します。
私たちの研究は、最小二乗時間差(LSTD)メソッドの非症状の統計的保証を提供し、パフォーマンスは1次ソボレフ基準で測定されます。
具体的には、推定器は、長さ$ t $の軌跡を使用する場合、$ o(1 / \ sqrt {t})$収束率を達成します。
特に、このレートは、拡散の混合時間と採用されている基底関数の数の両方で、$ T $がほぼ直線的にスケーリングする限り達成されます。
私たちのアプローチの重要な洞察は、拡散プロセスに固有の楕円率が、効果的な地平線が無限に分岐しても、堅牢なパフォーマンスを保証することです。
さらに、統計誤差のマルコビアン成分は近似誤差によって制御できることを実証しますが、Martingaleコンポーネントは基底関数の数に比べて遅い速度で成長します。
これらの2つのエラーソースのバランスを慎重にバランスさせることにより、分析により、近似と統計エラーの間の新しいトレードオフが明らかになります。

要約(オリジナル)

We study the estimation of the value function for continuous-time Markov diffusion processes using a single, discretely observed ergodic trajectory. Our work provides non-asymptotic statistical guarantees for the least-squares temporal-difference (LSTD) method, with performance measured in the first-order Sobolev norm. Specifically, the estimator attains an $O(1 / \sqrt{T})$ convergence rate when using a trajectory of length $T$; notably, this rate is achieved as long as $T$ scales nearly linearly with both the mixing time of the diffusion and the number of basis functions employed. A key insight of our approach is that the ellipticity inherent in the diffusion process ensures robust performance even as the effective horizon diverges to infinity. Moreover, we demonstrate that the Markovian component of the statistical error can be controlled by the approximation error, while the martingale component grows at a slower rate relative to the number of basis functions. By carefully balancing these two sources of error, our analysis reveals novel trade-offs between approximation and statistical errors.

arxiv情報

著者 Wenlong Mou
発行日 2025-02-06 18:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.PR, math.ST, stat.TH パーマリンク