Contextual Fixed-Budget Best Arm Identification: Adaptive Experimental Design with Policy Learning

要約

個別の治療法を推奨することは、証拠に基づいた意思決定において重要な作業です。
この研究では、このタスクをコンテキスト情報を使用した固定予算のベスト アーム識別 (BAI) 問題として定式化します。
この設定では、複数の治療群を与えた適応実験を検討します。
各ラウンドで、意思決定者は実験ユニットを特徴付けるコンテキスト (共変量) を観察し、そのユニットを治療群の 1 つに割り当てます。
実験の終了時に、意思決定者は、状況に応じて期待される最も高い結果が得られると推定される治療群 (最良の治療群) を推奨します。
この決定の有効性は、最悪の場合に予想される単純な後悔(政策後悔)の観点から測定されます。これは、状況を考慮した最良の治療群と推奨される治療群の条件付きで期待される結果の間の最大の差を表します。
最初のステップは、最悪の場合に予想される単純な後悔の漸近下限を導出することであり、これは理想的な治療割り当てルールも意味します。
下限に従って、適応サンプリング (AS) – ポリシー学習推奨 (PL) 戦略を提案します。
この戦略では、各ラウンドでの目標割り当て比率の比率で治療群をランダムに割り当てます。
実験の最後に、反事実の経験的ポリシー値を最大化することによって、コンテキストを考慮して治療群を推奨する関数であるポリシーをトレーニングします。
我々の結果は、AS-PL戦略が漸近的にミニマックス最適であり、予想される単純な後悔の主要因が確立された最悪の場合の下限に収束していることを示しています。
この研究はさまざまな分野に広範な影響を及ぼし、既存の文献に照らして、私たちの方法は、政策学習、政策に基づく学習、または適応的福祉最大化に合わせて調整された適応的実験計画として認識できます。

要約(オリジナル)

Individualized treatment recommendation is a crucial task in evidence-based decision-making. In this study, we formulate this task as a fixed-budget best arm identification (BAI) problem with contextual information. In this setting, we consider an adaptive experiment given multiple treatment arms. At each round, a decision-maker observes a context (covariate) that characterizes an experimental unit and assigns the unit to one of the treatment arms. At the end of the experiment, the decision-maker recommends a treatment arm estimated to yield the highest expected outcome conditioned on a context (best treatment arm). The effectiveness of this decision is measured in terms of the worst-case expected simple regret (policy regret), which represents the largest difference between the conditional expected outcomes of the best and recommended treatment arms given a context. Our initial step is to derive asymptotic lower bounds for the worst-case expected simple regret, which also implies ideal treatment assignment rules. Following the lower bounds, we propose the Adaptive Sampling (AS)-Policy Learning recommendation (PL) strategy. Under this strategy, we randomly assign a treatment arm with a ratio of a target assignment ratio at each round. At the end of the experiment, we train a policy, a function that recommends a treatment arm given a context, by maximizing the counterfactual empirical policy value. Our results show that the AS-PL strategy is asymptotically minimax optimal, with its leading factor of expected simple regret converging with our established worst-case lower bound. This research has broad implications in various domains, and in light of existing literature, our method can be perceived as an adaptive experimental design tailored for policy learning, on-policy learning, or adaptive welfare maximization.

arxiv情報

著者 Masahiro Kato,Kyohei Okumura,Takuya Ishihara,Toru Kitagawa
発行日 2024-01-08 09:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.EM, stat.ME, stat.ML パーマリンク