Learning with little mixing

要約

マーチンゲール差分ノイズを使用した実現可能な時系列フレームワークにおける二乗損失を研究します。
私たちの主な結果は、軌道の過収縮条件が成立するときは常に、バーンイン時間後に依存データの最小二乗推定量のリスクが iid レートと順序に従って一致することを示す高速レートの超過リスク限界です。
比較すると、依存データからの学習における既存の結果の多くは、バーンイン時間後であっても、基礎となるプロセスの混合時間の係数によって有効サンプル サイズが縮小する割合を示しています。
さらに、我々の結果により、共変量プロセスは幾何学的エルゴード性よりも実質的に弱い長距離相関を示すことができます。
私たちはこの現象を少し混合した学習と呼び、それが発生する場合のいくつかの例を示します。 $L^2$ と $L^{2+\epsilon}$ ノルムが同等である有界関数クラス、エルゴード有限状態マルコフ連鎖、
さまざまなパラメトリック モデル、および無限次元 $\ell^2(\mathbb{N})$ 楕円体の幅広いファミリーです。
一般化線形モデル遷移を使用して非線形ダイナミクスのシステム同定に対する主な結果をインスタンス化することにより、多項式バーンイン時間のみの後に、ほぼ最小の最適な超過リスク限界が得られます。

要約(オリジナル)

We study square loss in a realizable time-series framework with martingale difference noise. Our main result is a fast rate excess risk bound which shows that whenever a trajectory hypercontractivity condition holds, the risk of the least-squares estimator on dependent data matches the iid rate order-wise after a burn-in time. In comparison, many existing results in learning from dependent data have rates where the effective sample size is deflated by a factor of the mixing-time of the underlying process, even after the burn-in time. Furthermore, our results allow the covariate process to exhibit long range correlations which are substantially weaker than geometric ergodicity. We call this phenomenon learning with little mixing, and present several examples for when it occurs: bounded function classes for which the $L^2$ and $L^{2+\epsilon}$ norms are equivalent, ergodic finite state Markov chains, various parametric models, and a broad family of infinite dimensional $\ell^2(\mathbb{N})$ ellipsoids. By instantiating our main result to system identification of nonlinear dynamics with generalized linear model transitions, we obtain a nearly minimax optimal excess risk bound after only a polynomial burn-in time.

arxiv情報

著者 Ingvar Ziemann,Stephen Tu
発行日 2024-06-13 16:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク