要約
臨床試験でのワクチンやオンライン市場のクーポンなどの多くの介入は、その効果を完全に知ることなく順次割り当てなければなりません。
マルチアームのBanditアルゴリズムは、このような設定で成功していることが証明されています。
ただし、1つの個人の治療状態が他の結果、つまり干渉として知られる現象に影響を与えると、標準的な独立性の仮定が失敗します。
動的ネットワーク上の干渉下で最適なポリシー学習を研究しています。
この問題への既存のアプローチには、同じ固定ネットワークの繰り返しの観測が必要であり、サンプルサイズでスケーリングするのに苦労して、わずか15の接続ユニットを超えています。どちらもアプリケーションを制限しています。
干渉の構造に関する一般的な仮定の下で、報酬が線形になることを示します。
これにより、新しい$ n $ -Nodeネットワークが各ラウンドで観察されると、ポリシーの影響を最大化するスケーラブルなThompsonサンプリングアルゴリズムを開発できます。
私たちは、$ n $とラウンド数でサブリニアであるベイジアンの後悔の拘束力を証明します。
シミュレーション実験は、アルゴリズムが迅速に学習し、既存の方法を上回ることを示しています。
結果は、干渉の因果推論方法と実用的な盗賊アルゴリズムの間の重要なスケーラビリティギャップを埋め、大規模なネットワークシステムでのポリシーの最適化を可能にします。
要約(オリジナル)
Many interventions, such as vaccines in clinical trials or coupons in online marketplaces, must be assigned sequentially without full knowledge of their effects. Multi-armed bandit algorithms have proven successful in such settings. However, standard independence assumptions fail when the treatment status of one individual impacts the outcomes of others, a phenomenon known as interference. We study optimal-policy learning under interference on a dynamic network. Existing approaches to this problem require repeated observations of the same fixed network and struggle to scale in sample size beyond as few as fifteen connected units — both limit applications. We show that under common assumptions on the structure of interference, rewards become linear. This enables us to develop a scalable Thompson sampling algorithm that maximizes policy impact when a new $n$-node network is observed each round. We prove a Bayesian regret bound that is sublinear in $n$ and the number of rounds. Simulation experiments show that our algorithm learns quickly and outperforms existing methods. The results close a key scalability gap between causal inference methods for interference and practical bandit algorithms, enabling policy optimization in large-scale networked systems.
arxiv情報
著者 | Aidan Gleich,Eric Laber,Alexander Volfovsky |
発行日 | 2025-05-23 17:19:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google