Policy Optimization for Personalized Interventions in Behavioral Health

要約

デジタル プラットフォームを通じて提供される行動的健康介入は、教育、動機付け、リマインダー、支援を通じて健康成果を大幅に改善する可能性があります。
私たちは、介入には費用がかかり、能力に制約がある場合に、長期的な成果を最大化するために患者に合わせた個別化された介入を最適化するという問題を研究しています。
最初のパイロット研究から収集された履歴データセットにアクセスできると仮定します。
我々は、DecompPI と名付けたこの問題に対する新しいアプローチを提案します。これは、患者のシステムの状態空間を個人レベルに分解し、ポリシー反復の 1 ステップを近似します。
DecompPI の実装はデータセットを使用した予測タスクだけで構成され、オンライン実験の必要性が軽減されます。
DecompPI は、基礎となる患者行動モデルに関係なく使用できる、モデルフリーの汎用アルゴリズムです。
私たちは、問題設定を代表するモデルの単純で特殊なケースに対する理論的保証を導き出します。
データの収集に使用される初期ポリシーがランダム化されている場合、介入を割り当てないヌル ポリシーを超える改善に関して DecompPI の近似保証を確立します。
この保証が推定誤差に対して堅牢であることを示します。
次に、結核の治療アドヒアランスを向上させるために、モバイル医療プラットフォームからの実世界データを使用して、厳密な実証ケーススタディを実施します。
検証済みのシミュレーション モデルを使用して、DecompPI が介入の約半分の能力で現状維持アプローチと同じ有効性を提供できることを実証します。
DecompPI は、対象を絞った介入を通じて長期的な行動の改善を目指す組織にとって、シンプルかつ簡単に実装できます。この論文では、特にリソースが限られた設定において、理論的にも経験的にもその強力なパフォーマンスを実証しています。

要約(オリジナル)

Behavioral health interventions, delivered through digital platforms, have the potential to significantly improve health outcomes, through education, motivation, reminders, and outreach. We study the problem of optimizing personalized interventions for patients to maximize a long-term outcome, where interventions are costly and capacity-constrained. We assume we have access to a historical dataset collected from an initial pilot study. We present a new approach for this problem that we dub DecompPI, which decomposes the state space for a system of patients to the individual level and then approximates one step of policy iteration. Implementing DecompPI simply consists of a prediction task using the dataset, alleviating the need for online experimentation. DecompPI is a generic model-free algorithm that can be used irrespective of the underlying patient behavior model. We derive theoretical guarantees on a simple, special case of the model that is representative of our problem setting. When the initial policy used to collect the data is randomized, we establish an approximation guarantee for DecompPI with respect to the improvement beyond a null policy that does not allocate interventions. We show that this guarantee is robust to estimation errors. We then conduct a rigorous empirical case study using real-world data from a mobile health platform for improving treatment adherence for tuberculosis. Using a validated simulation model, we demonstrate that DecompPI can provide the same efficacy as the status quo approach with approximately half the capacity of interventions. DecompPI is simple and easy to implement for an organization aiming to improve long-term behavior through targeted interventions, and this paper demonstrates its strong performance both theoretically and empirically, particularly in resource-limited settings.

arxiv情報

著者 Jackie Baek,Justin J. Boutilier,Vivek F. Farias,Jonas Oddur Jonasson,Erez Yoeli
発行日 2024-07-18 14:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク