Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling

要約

タイトル:オンライン強化学習アルゴリズムによる個人化の評価:リサンプリングを用いたアプローチ

要約:
– デジタルヘルスにおいて、健康的な行動を促すために、強化学習(RL)を用いて治療のシーケンスを個人化することに興味がある。
– このような問題は、ユーザーの文脈(前の活動レベル、場所など)に基づいて、治療を行うタイミングや方法についての決定が必要となる。
– オンラインRLは、各ユーザーの過去の反応に基づいて学習し、これらの決定を個人化するための有望なデータ駆動型アプローチである。
– しかし、実際にRLアルゴリズムが治療をユーザーに個人化しているというデータの証拠を評価する必要がある。
– RLアルゴリズムのランダム性により、特定の状態で学習して、その学習を使用して特定の治療を提供しているように見える場合がある。
– 個人化の定義を使用し、RLアルゴリズムが展示している個人化がRLアルゴリズムのランダム性の副作用であるかどうかを調査するためのリサンプリングベースの方法を紹介する。
– HeartStepsという身体活動の臨床試験のデータを分析することで、方法論を示す。
– 彼らは、アプローチが、研究の全ユーザーだけでなく、特定のユーザー内でもアルゴリズム個人化のデータ駆動の真実性を向上させる方法であることを示した。

要約(オリジナル)

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user’s context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user’s historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an “optimized” intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.

arxiv情報

著者 Susobhan Ghosh,Raphael Kim,Prasidh Chhabria,Raaz Dwivedi,Predrag Klasnja,Peng Liao,Kelly Zhang,Susan Murphy
発行日 2023-04-24 08:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.AP, stat.ME, stat.ML パーマリンク