Identifiable latent bandits: Combining observational data and exploration for personalized healthcare


Bandit アルゴリズムは、個人に合わせた意思決定の改善に大きな期待を寄せていますが、サンプルを大量に消費することで有名です。
この研究では、新しいバンディット インスタンスの最適なアクションを一貫して推測するのに十分な程度まで観測データから証明可能に特定できる非線形独立成分分析に基づくバンディット アルゴリズムを提案します。
この戦略をシミュレーション データで検証し、インスタンスごとに独立した複数の腕を持つバンディットを学習する場合に比べて大幅な改善が見られます。


Bandit algorithms hold great promise for improving personalized decision-making but are notoriously sample-hungry. In most health applications, it is infeasible to fit a new bandit for each patient, and observable variables are often insufficient to determine optimal treatments, ruling out applying contextual bandits learned from multiple patients. Latent bandits offer both rapid exploration and personalization beyond what context variables can reveal but require that a latent variable model can be learned consistently. In this work, we propose bandit algorithms based on nonlinear independent component analysis that can be provably identified from observational data to a degree sufficient to infer the optimal action in a new bandit instance consistently. We verify this strategy in simulated data, showing substantial improvement over learning independent multi-armed bandits for every instance.


著者 Ahmet Zahid Balcıoğlu,Emil Carlsson,Fredrik D. Johansson
発行日 2024-07-29 14:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, stat.ML パーマリンク