Adaptive Experimental Design for Policy Learning

要約

証拠に基づいたターゲティングは、政策やビジネスの実務者の間で関心が高まっているテーマです。
意思決定者の政策学習をコンテキスト情報を備えた固定予算の最適アーム識別 (BAI) 問題として定式化し、複数の治療アームを使用した政策学習の最適な適応実験計画を研究します。
サンプリング段階では、プランナーは、コンテキスト情報 (共変量) を観察した上で、順次到着する実験ユニットに適応的に治療アームを割り当てます。
実験後、プランナーは個別の割り当てルールを母集団に推奨します。
適応サンプリングと推奨ポリシーのパフォーマンス基準として最悪の場合の予想されるリグレスを設定し、その漸近的な下限を導出し、リグレスの上限の主要因子が
実験ユニットのサイズが増加するにつれて、下限は増加します。

要約(オリジナル)

Evidence-based targeting has been a topic of growing interest among the practitioners of policy and business. Formulating decision-maker’s policy learning as a fixed-budget best arm identification (BAI) problem with contextual information, we study an optimal adaptive experimental design for policy learning with multiple treatment arms. In the sampling stage, the planner assigns treatment arms adaptively over sequentially arriving experimental units upon observing their contextual information (covariates). After the experiment, the planner recommends an individualized assignment rule to the population. Setting the worst-case expected regret as the performance criterion of adaptive sampling and recommended policies, we derive its asymptotic lower bounds, and propose a strategy, Adaptive Sampling-Policy Learning strategy (PLAS), whose leading factor of the regret upper bound aligns with the lower bound as the size of experimental units increases.

arxiv情報

著者 Masahiro Kato,Kyohei Okumura,Takuya Ishihara,Toru Kitagawa
発行日 2024-02-08 17:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.EM, stat.ME, stat.ML パーマリンク