要約
Bandit アルゴリズムは、個人に合わせた意思決定の改善に大きな期待を寄せていますが、サンプルを大量に消費することで有名です。
ほとんどの医療アプリケーションでは、患者ごとに新しいバンディットを適合させることは不可能であり、観察可能な変数だけでは最適な治療法を決定するには不十分であることが多く、複数の患者から学習した状況に応じたバンディットを適用することはできません。
潜在バンディットは、コンテキスト変数が明らかにできる範囲を超えた迅速な探索とパーソナライゼーションの両方を提供しますが、潜在変数モデルが一貫して学習できることが必要です。
この研究では、新しいバンディット インスタンスの最適なアクションを一貫して推測するのに十分な程度まで観測データから証明可能に特定できる非線形独立成分分析に基づくバンディット アルゴリズムを提案します。
この戦略をシミュレーション データで検証し、インスタンスごとに独立した複数の腕を持つバンディットを学習する場合に比べて大幅な改善が見られます。
要約(オリジナル)
Bandit algorithms hold great promise for improving personalized decision-making but are notoriously sample-hungry. In most health applications, it is infeasible to fit a new bandit for each patient, and observable variables are often insufficient to determine optimal treatments, ruling out applying contextual bandits learned from multiple patients. Latent bandits offer both rapid exploration and personalization beyond what context variables can reveal but require that a latent variable model can be learned consistently. In this work, we propose bandit algorithms based on nonlinear independent component analysis that can be provably identified from observational data to a degree sufficient to infer the optimal action in a new bandit instance consistently. We verify this strategy in simulated data, showing substantial improvement over learning independent multi-armed bandits for every instance.
arxiv情報
著者 | Ahmet Zahid Balcıoğlu,Emil Carlsson,Fredrik D. Johansson |
発行日 | 2024-07-29 14:04:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google