Leveraging Factored Action Spaces for Off-Policy Evaluation

要約

オフポリシー評価 (OPE) は、実行されたシーケンスから収集されたデータを基に、反事実的な一連のアクションに従うことの利点を推定することを目的としています。
ただし、既存の OPE 推定量は、大規模な組み合わせアクション スペースを含む問題では、高いバイアスと高い分散を示すことがよくあります。
私たちは、因数分解されたアクション空間を使用して、つまり各アクションをより小さなアクション空間からの独立したサブアクションの組み合わせとして表現することを使用して、この問題を軽減する方法を調査します。
このアプローチにより、アクションの効果がどのように異なるのかをより詳細に分析することが容易になります。
この研究では、因数分解されたアクション空間に基づいた「分解された」重要度サンプリング (IS) 推定器の新しいファミリーを提案します。
根底にある問題構造に関する特定の仮定を考慮すると、分解された IS 推定量は、ゼロ バイアスの特性を維持しながら、元の非分解バージョンよりも分散が小さいことが証明されます。
シミュレーションを通じて理論的結果を実証的に検証し、さまざまな仮定の妥当性を検証します。
与えられた問題のアクション空間因数分解を導き出すことができる技術を備えた私たちの研究は、この固有の問題構造を利用することによって OPE を「無料」で改善できることを示しています。

要約(オリジナル)

Off-policy evaluation (OPE) aims to estimate the benefit of following a counterfactual sequence of actions, given data collected from executed sequences. However, existing OPE estimators often exhibit high bias and high variance in problems involving large, combinatorial action spaces. We investigate how to mitigate this issue using factored action spaces i.e. expressing each action as a combination of independent sub-actions from smaller action spaces. This approach facilitates a finer-grained analysis of how actions differ in their effects. In this work, we propose a new family of ‘decomposed’ importance sampling (IS) estimators based on factored action spaces. Given certain assumptions on the underlying problem structure, we prove that the decomposed IS estimators have less variance than their original non-decomposed versions, while preserving the property of zero bias. Through simulations, we empirically verify our theoretical results, probing the validity of various assumptions. Provided with a technique that can derive the action space factorisation for a given problem, our work shows that OPE can be improved ‘for free’ by utilising this inherent problem structure.

arxiv情報

著者 Aaman Rebello,Shengpu Tang,Jenna Wiens,Sonali Parbhoo
発行日 2023-07-13 18:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60J10, 62D05, 62D20, 62P10, cs.AI, cs.LG, G.3, stat.ML パーマリンク