IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health

要約

公衆衛生従事者は多くの場合、限られたリソースの使用に制約されながら、患者を監視し、患者が「良好な」状態または健康な状態で費やす時間を最大化するという目標を掲げています。
Restless multi-armed Bandits (RMAB) は、介入の有無に応じて患者の行動が異なるリソース制約下で、限られたリソースを多くのエージェントに割り当てるのに役立つため、この問題を解決する効果的なモデルです。
ただし、RMAB は報酬関数が既知であることを前提としています。
患者は特有の課題に直面しており、これほど大規模な介入に最も値するのは誰であるかを人間が知ることは不可能であるため、これは多くの公衆衛生の現場では非現実的です。
この欠点に対処するために、この論文は、RMAB に望ましい報酬を学習するための逆強化学習 (IRL) の使用を初めて紹介し、母子保健遠隔医療プログラムにおける成果の向上を実証します。
まず、公衆衛生の専門家が集合体レベルまたは集団レベルで目標を指定できるようにし、それらの目標に基づいて大規模に専門家の軌跡を設計するアルゴリズムを提案します。
次に、アルゴリズム WHIRL は勾配更新を使用して目標を最適化し、RMAB 報酬の効率的かつ正確な学習を可能にします。
第三に、既存のベースラインと比較し、実行時間と精度の点でそれらを上回ります。
最後に、インドの実際の母子保健現場からの数千人の受益者に対する WHIRL の有用性を評価し、示します。
コードは https://github.com/Gjain234/WHIRL で公開しています。

要約(オリジナル)

Public health practitioners often have the goal of monitoring patients and maximizing patients’ time spent in ‘favorable’ or healthy states while being constrained to using limited resources. Restless multi-armed bandits (RMAB) are an effective model to solve this problem as they are helpful to allocate limited resources among many agents under resource constraints, where patients behave differently depending on whether they are intervened on or not. However, RMABs assume the reward function is known. This is unrealistic in many public health settings because patients face unique challenges and it is impossible for a human to know who is most deserving of any intervention at such a large scale. To address this shortcoming, this paper is the first to present the use of inverse reinforcement learning (IRL) to learn desired rewards for RMABs, and we demonstrate improved outcomes in a maternal and child health telehealth program. First we allow public health experts to specify their goals at an aggregate or population level and propose an algorithm to design expert trajectories at scale based on those goals. Second, our algorithm WHIRL uses gradient updates to optimize the objective, allowing for efficient and accurate learning of RMAB rewards. Third, we compare with existing baselines and outperform those in terms of run-time and accuracy. Finally, we evaluate and show the usefulness of WHIRL on thousands on beneficiaries from a real-world maternal and child health setting in India. We publicly release our code here: https://github.com/Gjain234/WHIRL.

arxiv情報

著者 Gauri Jain,Pradeep Varakantham,Haifeng Xu,Aparna Taneja,Prashant Doshi,Milind Tambe
発行日 2024-12-11 15:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク