要約
観測データを用いて最適な方策を獲得することを目的として、オフラインの文脈バンディット問題を研究しています。
ただし、このデータには通常 2 つの欠陥があります。(i) アクションを混乱させるいくつかの変数が観察されないこと、および (ii) 収集されたデータに欠落している観察が存在することです。
観察されていない交絡因子は交絡バイアスにつながり、観察の欠落はバイアスと非効率性の問題を引き起こします。
これらの課題を克服し、観測されたデータセットから最適なポリシーを学習するために、Causal-Adjusted Pessimistic (CAP) ポリシー学習と呼ばれる新しいアルゴリズムを提示します。これは、積分方程式系の解として報酬関数を形成し、信頼セットを構築し、
悲観的に貪欲に行動する。
データに関する穏やかな仮定を使用して、オフラインのコンテキスト バンディット問題に対する CAP の準最適性の上限を開発します。
要約(オリジナル)
We study the offline contextual bandit problem, where we aim to acquire an optimal policy using observational data. However, this data usually contains two deficiencies: (i) some variables that confound actions are not observed, and (ii) missing observations exist in the collected data. Unobserved confounders lead to a confounding bias and missing observations cause bias and inefficiency problems. To overcome these challenges and learn the optimal policy from the observed dataset, we present a new algorithm called Causal-Adjusted Pessimistic (CAP) policy learning, which forms the reward function as the solution of an integral equation system, builds a confidence set, and greedily takes action with pessimism. With mild assumptions on the data, we develop an upper bound to the suboptimality of CAP for the offline contextual bandit problem.
arxiv情報
著者 | Siyu Chen,Yitan Wang,Zhaoran Wang,Zhuoran Yang |
発行日 | 2023-03-20 15:17:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google