Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits

要約

ログに記録されたインタラクションの固定データセットが与えられるコンテキストバンディットにおけるポリシーの最適化を検討します。
悲観的正則化器は通常、分布シフトを軽減するために使用されますが、その以前の実装は計算効率が良くありません。
我々は、悲観的なポリシー最適化のための最初のオラクル効率的なアルゴリズムを紹介します。これは教師あり学習に帰着し、幅広い適用可能性につながります。
また、以前の研究における悲観的なアプローチと同様のベストエフォート型の統計的保証も得られます。
離散アクションと連続アクションの両方に対するアプローチをインスタンス化します。
私たちは両方の設定で広範な実験を実行し、幅広い構成にわたって非正規化ポリシーの最適化よりも優れていることを示しています。

要約(オリジナル)

We consider policy optimization in contextual bandits, where one is given a fixed dataset of logged interactions. While pessimistic regularizers are typically used to mitigate distribution shift, prior implementations thereof are not computationally efficient. We present the first oracle-efficient algorithm for pessimistic policy optimization: it reduces to supervised learning, leading to broad applicability. We also obtain best-effort statistical guarantees analogous to those for pessimistic approaches in prior work. We instantiate our approach for both discrete and continuous actions. We perform extensive experiments in both settings, showing advantage over unregularized policy optimization across a wide range of configurations.

arxiv情報

著者	Lequn Wang,Akshay Krishnamurthy,Aleksandrs Slivkins
発行日	2023-06-13 17:29:50+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー