要約
ログに記録されたインタラクションの固定データセットが与えられるコンテキスト バンディットにおけるポリシーの最適化を検討します。
悲観的正則化器は通常、分布シフトを軽減するために使用されますが、その以前の実装は計算効率が良くありません。
我々は、悲観的なポリシー最適化のための最初のオラクル効率的なアルゴリズムを紹介します。これは教師あり学習に帰着し、幅広い適用可能性につながります。
また、以前の研究における悲観的なアプローチと同様のベストエフォート型の統計的保証も得られます。
離散アクションと連続アクションの両方に対するアプローチをインスタンス化します。
私たちは両方の設定で広範な実験を実行し、幅広い構成にわたって非正規化ポリシーの最適化よりも優れていることを示しています。
要約(オリジナル)
We consider policy optimization in contextual bandits, where one is given a fixed dataset of logged interactions. While pessimistic regularizers are typically used to mitigate distribution shift, prior implementations thereof are not computationally efficient. We present the first oracle-efficient algorithm for pessimistic policy optimization: it reduces to supervised learning, leading to broad applicability. We also obtain best-effort statistical guarantees analogous to those for pessimistic approaches in prior work. We instantiate our approach for both discrete and continuous actions. We perform extensive experiments in both settings, showing advantage over unregularized policy optimization across a wide range of configurations.
arxiv情報
著者 | Lequn Wang,Akshay Krishnamurthy,Aleksandrs Slivkins |
発行日 | 2023-06-13 17:29:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google