要約
データがマルコフ連鎖から引き出される確率的最適化問題を検討します。
この設定の既存の方法は、チェーンの混合時間を知ることに大きく依存していますが、実際のアプリケーションでは通常は不明です。
混合時間の知識を必要とせず、凸問題に適用すると最適な漸近収束率が得られる最初の最適化方法を提案します。
さらに、私たちのアプローチは、(i) マルコフ データを使用した非凸最適化で静止点を見つけること、および (ii) 時間差分 (TD) 学習で混合時間へのより良い依存性を取得することにも拡張できることを示します。
どちらの場合も、私たちの方法では混合時間はまったく考慮されません。
私たちの方法は、マルチレベル モンテカルロ (MLMC) 勾配推定と適応学習方法の新しい組み合わせに依存しています。
要約(オリジナル)
We consider stochastic optimization problems where data is drawn from a Markov chain. Existing methods for this setting crucially rely on knowing the mixing time of the chain, which in real-world applications is usually unknown. We propose the first optimization method that does not require the knowledge of the mixing time, yet obtains the optimal asymptotic convergence rate when applied to convex problems. We further show that our approach can be extended to: (i) finding stationary points in non-convex optimization with Markovian data, and (ii) obtaining better dependence on the mixing time in temporal difference (TD) learning; in both cases, our method is completely oblivious to the mixing time. Our method relies on a novel combination of multi-level Monte Carlo (MLMC) gradient estimation together with an adaptive learning method.
arxiv情報
著者 | Ron Dorfman,Kfir Y. Levy |
発行日 | 2023-07-13 16:05:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google