要約
オフポリシー学習 (OPL) では、多くの場合、データ収集に使用されるロギング ポリシーからのバイアスを修正するために、重要度の重み付けに基づいてリスク推定量を最小限に抑えます。
ただし、この方法では、分散が大きい推定量が生成される可能性があります。
一般的な解決策は、重要度の重みを正規化し、推定量に固有の一般化限界から導出されるペナルティを使用して推定量を最小化することでポリシーを学習することです。
悲観主義として知られるこのアプローチは最近注目を集めていますが、分析のための統一されたフレームワークがありません。
このギャップに対処するために、正規化された重要度の重み付けを使用して悲観論を調査するための包括的な PAC ベイジアン フレームワークを導入します。
共通の重要度の重み正則化に普遍的に適用される扱いやすい PAC ベイジアン一般化限界を導出し、単一のフレームワーク内でそれらの比較を可能にします。
私たちの経験的結果は共通の理解に疑問を投げかけ、標準的な IW 正則化手法の有効性を実証しています。
要約(オリジナル)
Off-policy learning (OPL) often involves minimizing a risk estimator based on importance weighting to correct bias from the logging policy used to collect data. However, this method can produce an estimator with a high variance. A common solution is to regularize the importance weights and learn the policy by minimizing an estimator with penalties derived from generalization bounds specific to the estimator. This approach, known as pessimism, has gained recent attention but lacks a unified framework for analysis. To address this gap, we introduce a comprehensive PAC-Bayesian framework to examine pessimism with regularized importance weighting. We derive a tractable PAC-Bayesian generalization bound that universally applies to common importance weight regularizations, enabling their comparison within a single framework. Our empirical results challenge common understanding, demonstrating the effectiveness of standard IW regularization techniques.
arxiv情報
| 著者 | Imad Aouali,Victor-Emmanuel Brunel,David Rohde,Anna Korba |
| 発行日 | 2024-06-05 16:32:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google