An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

要約

管理者が変更の価値を厳密に定量化し、それが現状から統計的に有意な改善につながるかどうかを判断するには、実験が不可欠です。
広くリリースする前にすべての変更を実験することを企業が義務付けるようになるにつれて、(1) 劣悪な処理に割り当てられる顧客の割合を最小限に抑えること、および (2) データに依存した停止を可能にすることで実験の速度を高めることという 2 つの課題が生じます。
この論文では、\emph{any} MAB アルゴリズムの平均治療効果 (ATE) に関するいつでも有効な推論を可能にする、マルチアーム バンディット (MAB) アルゴリズムの新しい実験計画である混合適応設計 (MAD) を導入することで、両方の課題に対処します。

MAD は直感的に、任意のバンディット アルゴリズムとベルヌーイ設計を「混合」します。各タイム ステップで、ベルヌーイ設計を介して単位を割り当てる確率は、ゼロに収束するユーザー指定の決定論的シーケンスによって決定されます。
このシーケンスにより、マネージャーは後悔の最小化と推論の精度の間のトレードオフを直接制御できます。
シーケンスがゼロに収束するレートに関する穏やかな条件下では、漸近的にいつでも有効で、真の ATE 付近に縮小することが保証される信頼シーケンスを提供します。
したがって、真の ATE がゼロ以外の値に収束すると、MAD 信頼シーケンスは有限時間内にゼロを除外することが保証されます。
したがって、MAD を使用すると、管理者は有効な推論を確保しながら実験を早期に停止できるため、適応実験の効率と信頼性の両方が向上します。
経験的に、MAD は、標準的なバンディット設計と比較して報酬に重大な損失を被ることなく、正確かつ正確に ATE を推定しなが​​ら、有限サンプルの常時有効性を達成することを実証しています。

要約(オリジナル)

Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo. As companies increasingly mandate that all changes undergo experimentation before widespread release, two challenges arise: (1) minimizing the proportion of customers assigned to the inferior treatment and (2) increasing experimentation velocity by enabling data-dependent stopping. This paper addresses both challenges by introducing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime-valid inference on the Average Treatment Effect (ATE) for \emph{any} MAB algorithm. Intuitively, MAD ‘mixes’ any bandit algorithm with a Bernoulli design, where at each time step, the probability of assigning a unit via the Bernoulli design is determined by a user-specified deterministic sequence that can converge to zero. This sequence lets managers directly control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime-valid and guaranteed to shrink around the true ATE. Hence, when the true ATE converges to a non-zero value, the MAD confidence sequence is guaranteed to exclude zero in finite time. Therefore, the MAD enables managers to stop experiments early while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.

arxiv情報

著者 Biyonka Liang,Iavor Bojinov
発行日 2024-10-15 15:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク