要約
私たちは、クラスノセルスキー-マン反復のスタイルで 2 番目のマッピングを組み込んだ、一般化された確率的ハルペルン スタイルの反復に対して、抽象的で一般的で高度に均一な漸近規則性の割合を提供します。
この反復は 2 つの点で一般的です。1 つは、サンプリング方法を固定するのではなく、完全に抽象的な方法で確率性を組み込むことです。
次に、ハルパーンの反復や、Bo\c{t}、Csetnek、Meier の意味での Tikhonov 正則化項を使用した Krasnoselskii-Mann 反復など、最適化文献からのさまざまなスキームの確率的バージョンが特殊なケースとして含まれています。
これらの特定のケースでは、特に、確率的最適化におけるこれらの反復の現在最もよく知られているレートと一致する (または改善する) 漸近規則性の線形レートを取得します。また、漸近規則性の二次レートは、一般的な内積空間のコンテキストで取得されます。
反復。
これらのレートを利用して、適切な分散仮定とバッチ化戦略の下でそのような反復のオラクルの複雑さに制限を与えます。これも抽象的なスタイルで示されています。
最後に、ここで紹介したスキームを強化学習のコンテキストでどのようにインスタンス化して Q 学習の新しい方法を生み出すことができるかを概略します。
要約(オリジナル)
We provide abstract, general and highly uniform rates of asymptotic regularity for a generalized stochastic Halpern-style iteration, which incorporates a second mapping in the style of a Krasnoselskii-Mann iteration. This iteration is general in two ways: First, it incorporates stochasticity in a completely abstract way rather than fixing a sampling method; secondly, it includes as special cases stochastic versions of various schemes from the optimization literature, including Halpern’s iteration as well as a Krasnoselskii-Mann iteration with Tikhonov regularization terms in the sense of Bo\c{t}, Csetnek and Meier. For these particular cases, we in particular obtain linear rates of asymptotic regularity, matching (or improving) the currently best known rates for these iterations in stochastic optimization, and quadratic rates of asymptotic regularity are obtained in the context of inner product spaces for the general iteration. We utilize these rates to give bounds on the oracle complexity of such iterations under suitable variance assumptions and batching strategies, again presented in an abstract style. Finally, we sketch how the schemes presented here can be instantiated in the context of reinforcement learning to yield novel methods for Q-learning.
arxiv情報
著者 | Nicholas Pischke,Thomas Powell |
発行日 | 2024-11-07 16:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google