RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions

要約

モバイルヘルスは、バンディットおよび強化学習アルゴリズムを通じて最適化された、パーソナライズされ、状況に応じて調整された介入を活用します。
ただし、実際には、参加者の異質性、非定常性、非線形関係などの課題がアルゴリズムのパフォーマンスを妨げます。
我々は、(1) ユーザー固有および時間固有のランダム効果による差分報酬のモデリング、(2) ネットワーク凝集ペナルティ、および (3) 偏りのない機械学習を通じてこれらの課題に同時に対処する、堅牢な混合効果コンテキスト バンディット アルゴリズムである RoME を提案します。
ベースライン報酬の柔軟な見積もり。
私たちは、差分報酬モデルの次元のみに依存する高確率の後悔限界を確立し、ベースライン報酬が非常に複雑な場合でも堅牢な後悔限界を達成できるようにします。
シミュレーションと 2 つのオフポリシー評価研究で、RoME アルゴリズムの優れたパフォーマンスを実証します。

要約(オリジナル)

Mobile health leverages personalized and contextually tailored interventions optimized through bandit and reinforcement learning algorithms. In practice, however, challenges such as participant heterogeneity, nonstationarity, and nonlinear relationships hinder algorithm performance. We propose RoME, a Robust Mixed-Effects contextual bandit algorithm that simultaneously addresses these challenges via (1) modeling the differential reward with user- and time-specific random effects, (2) network cohesion penalties, and (3) debiased machine learning for flexible estimation of baseline rewards. We establish a high-probability regret bound that depends solely on the dimension of the differential-reward model, enabling us to achieve robust regret bounds even when the baseline reward is highly complex. We demonstrate the superior performance of the RoME algorithm in a simulation and two off-policy evaluation studies.

arxiv情報

著者 Easton K. Huch,Jieru Shi,Madeline R. Abbott,Jessica R. Golbus,Alexander Moreno,Walter H. Dempsey
発行日 2025-01-15 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク