Wasserstein Distributionally Robust Policy Evaluation and Learning for Contextual Bandits

要約

オフポリシーの評価と学習は、環境と直接対話することなく、特定のポリシーを評価し、オフライン データから最適なポリシーを学習することに関係します。
多くの場合、データが収集される環境は、学習されたポリシーが適用される環境とは異なります。
学習および実行中のさまざまな環境の影響を考慮するために、新しい環境の分布が不確実性セット内にあると仮定して、ポリシー値の最悪の場合の境界を計算する分布ロバスト最適化 (DRO) 手法が開発されました。
通常、この不確実性セットは、ロギング データセットから計算された経験的分布周辺の KL 発散に基づいて定義されます。
ただし、KL 不確実性セットは、さまざまなサポートを持つ分布を包含できず、分布サポートの幾何学的形状を認識していません。
その結果、KL のアプローチは実際の環境の不一致に対処するには不十分であり、最悪のシナリオへの過剰適合につながります。
これらの制限を克服するために、代わりに Wasserstein 距離を使用する新しい DRO アプローチを提案します。
Wasserstein DRO は一般に KL DRO に比べて計算コストが高くなりますが、ポリシーを効率的に最適化するための正規化された方法と実用的な (バイアスのある) 確率的勾配降下法を紹介します。
また、提案した方法の有限サンプルの複雑さと反復の複雑さの理論的分析も提供します。
さらに、ランダム化ストローク試験で記録された公開データセットを使用して、アプローチを検証します。

要約(オリジナル)

Off-policy evaluation and learning are concerned with assessing a given policy and learning an optimal policy from offline data without direct interaction with the environment. Often, the environment in which the data are collected differs from the environment in which the learned policy is applied. To account for the effect of different environments during learning and execution, distributionally robust optimization (DRO) methods have been developed that compute worst-case bounds on the policy values assuming that the distribution of the new environment lies within an uncertainty set. Typically, this uncertainty set is defined based on the KL divergence around the empirical distribution computed from the logging dataset. However, the KL uncertainty set fails to encompass distributions with varying support and lacks awareness of the geometry of the distribution support. As a result, KL approaches fall short in addressing practical environment mismatches and lead to over-fitting to worst-case scenarios. To overcome these limitations, we propose a novel DRO approach that employs the Wasserstein distance instead. While Wasserstein DRO is generally computationally more expensive compared to KL DRO, we present a regularized method and a practical (biased) stochastic gradient descent method to optimize the policy efficiently. We also provide a theoretical analysis of the finite sample complexity and iteration complexity for our proposed method. We further validate our approach using a public dataset that was recorded in a randomized stoke trial.

arxiv情報

著者 Yi Shen,Pan Xu,Michael M. Zavlanos
発行日 2024-01-17 14:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク