Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling

要約

強化学習 (RL) を使用してデジタル ヘルスにおける一連の治療をパーソナライズし、ユーザーがより健康的な行動を取れるようサポートすることへの関心が高まっています。
このような逐次的な意思決定の問題には、ユーザーのコンテキスト (たとえば、以前の活動レベル、場所など) に基づいて、いつ治療するか、どのように治療するかについての決定が含まれます。
オンライン RL は、各ユーザーの過去の応答に基づいて学習し、その知識を使用して意思決定をパーソナライズするため、この問題に対する有望なデータ駆動型のアプローチです。
ただし、RL アルゴリズムを現実世界での導入に向けた「最適化された」介入に含めるべきかどうかを決定するには、RL アルゴリズムが実際にユーザーに合わせて治療を個別化していることを示すデータ証拠を評価する必要があります。
RL アルゴリズムの確率性により、RL アルゴリズムが特定の状態で学習し、この学習を使用して特定の治療を提供しているという誤った印象を受ける可能性があります。
パーソナライゼーションの実用的な定義を使用し、RL アルゴリズムによって示されるパーソナライゼーションが RL アルゴリズムの確率性のアーティファクトであるかどうかを調査するためのリサンプリング ベースの方法論を導入します。
オンライン RL アルゴリズムの使用を含む、HeartSteps と呼ばれる身体活動臨床試験のデータを分析するケーススタディで、私たちの方法論を説明します。
私たちのアプローチが、調査対象の特定のユーザー内だけでなく、すべてのユーザーにわたってアルゴリズムのパーソナライゼーションのデータ駆動型の真実の広告をどのように強化するかを実証します。

要約(オリジナル)

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user’s context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user’s historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an “optimized” intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.

arxiv情報

著者 Susobhan Ghosh,Raphael Kim,Prasidh Chhabria,Raaz Dwivedi,Predrag Klasnja,Peng Liao,Kelly Zhang,Susan Murphy
発行日 2023-05-23 17:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ME, stat.ML パーマリンク