The Curse of Passive Data Collection in Batch Reinforcement Learning

要約

一か八かのアプリケーションでは、積極的な実験はリスクが高すぎると考えられるため、データは受動的に収集されることがよくあります。
盗賊などの単純なケースでは、パッシブ データ収集とアクティブ データ収集は同様に効果的ですが、制御された状態のシステムからデータを収集する場合、パッシブ サンプリングのコストははるかに高くなる可能性があります。
今回の論文の主な焦点は、この価格の特徴を明らかにすることです。
たとえば、 $\mathrm{S}$ 状態と $\mathrm{A}$ アクションを使用したエピソード的な有限状態アクション マルコフ決定プロセス (MDP) で学習する場合、最適な (ただし受動的に選択された) ロギング ポリシーを使用した場合でも、
, $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H)}/\varepsilon^2)$ エピソードは、$\epsilon$-optimal ポリシーを取得するために必要 (そして十分) です。
、ここで $H$ はエピソードの長さです。
これは、サンプルの複雑さがアクティブなデータ収集の場合と比較して指数関数的に爆発することを示していることに注意してください。この結果は予期せぬことではありませんが、私たちが知る限り、事前に公開されておらず、おそらく正確な式の形式は次のとおりです。
少し驚くべきこと。
また、これらの結果を他の基準や関数近似の存在下での学習など、さまざまな方向に拡張し、同様の結論を導き出します。
私たちの結果の注目すべき特徴は、表示される指数の明確な特徴付けです。これは、受動的学習の難しさを理解するために重要です。

要約(オリジナル)

In high stake applications, active experimentation may be considered too risky and thus data are often collected passively. While in simple cases, such as in bandits, passive and active data collection are similarly effective, the price of passive sampling can be much higher when collecting data from a system with controlled states. The main focus of the current paper is the characterization of this price. For example, when learning in episodic finite state-action Markov decision processes (MDPs) with $\mathrm{S}$ states and $\mathrm{A}$ actions, we show that even with the best (but passively chosen) logging policy, $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H)}/\varepsilon^2)$ episodes are necessary (and sufficient) to obtain an $\epsilon$-optimal policy, where $H$ is the length of episodes. Note that this shows that the sample complexity blows up exponentially compared to the case of active data collection, a result which is not unexpected, but, as far as we know, have not been published beforehand and perhaps the form of the exact expression is a little surprising. We also extend these results in various directions, such as other criteria or learning in the presence of function approximation, with similar conclusions. A remarkable feature of our result is the sharp characterization of the exponent that appears, which is critical for understanding what makes passive learning hard.

arxiv情報

著者 Chenjun Xiao,Ilbin Lee,Bo Dai,Dale Schuurmans,Csaba Szepesvari
発行日 2023-07-05 14:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク