Importance-Weighted Offline Learning Done Right

要約

私たちは、確率的文脈バンディット問題におけるオフライン ポリシー最適化の問題を研究します。その目標は、準最適な動作ポリシーによって収集された意思決定データのデータセットに基づいて、最適に近いポリシーを学習することです。
報酬関数について構造的な仮定を行うのではなく、特定のポリシー クラスへのアクセスを想定し、このクラス内の最良の比較ポリシーと競合することを目指します。
この設定では、標準的なアプローチは、各ポリシーの価値の重要度で重み付けされた推定量を計算し、ランダムな変動を減らすために推定値から差し引かれる「悲観的」調整まで推定値を最小化するポリシーを選択することです。
この論文では、 \citet{Neu2015} の「暗黙的探索」推定量に基づく単純な代替アプローチにより、ほぼすべての点で以前の結果よりも優れたパフォーマンス保証が得られることを示します。
最も注目すべき点は、これまでのすべての作業で行われていた非常に制限的な「均一な適用範囲」の仮定を削除したことです。
これらの改善は、上尾部と下尾尾部の重要度重み付け推定量が互いに大きく異なる動作をするという観察によって可能になり、それらを注意深く制御することで、すべて対称の両側濃度不平等に基づいていた以前の結果を大幅に改善できます。
また、結果を PAC ベイジアン方式で無限のポリシー クラスに拡張し、数値シミュレーションによってハイパーパラメーターの選択に対するアルゴリズムの堅牢性を示します。

要約(オリジナル)

We study the problem of offline policy optimization in stochastic contextual bandit problems, where the goal is to learn a near-optimal policy based on a dataset of decision data collected by a suboptimal behavior policy. Rather than making any structural assumptions on the reward function, we assume access to a given policy class and aim to compete with the best comparator policy within this class. In this setting, a standard approach is to compute importance-weighted estimators of the value of each policy, and select a policy that minimizes the estimated value up to a ‘pessimistic’ adjustment subtracted from the estimates to reduce their random fluctuations. In this paper, we show that a simple alternative approach based on the ‘implicit exploration’ estimator of \citet{Neu2015} yields performance guarantees that are superior in nearly all possible terms to all previous results. Most notably, we remove an extremely restrictive ‘uniform coverage’ assumption made in all previous works. These improvements are made possible by the observation that the upper and lower tails importance-weighted estimators behave very differently from each other, and their careful control can massively improve on previous results that were all based on symmetric two-sided concentration inequalities. We also extend our results to infinite policy classes in a PAC-Bayesian fashion, and showcase the robustness of our algorithm to the choice of hyper-parameters by means of numerical simulations.

arxiv情報

著者 Germano Gabbianelli,Gergely Neu,Matteo Papini
発行日 2023-09-27 16:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク