要約
国連の持続可能な開発目標(SDGターゲット3.1)の重要な目標である妊産婦死亡率を削減する取り組みは、リスクの高い人々に重要な健康情報を広めるための予防医療プログラムに大きく依存している。
これらのプログラムは 2 つの重要な課題に直面しています。それは、限られた医療資源を多数の受益者に効率的に割り当てること、そして進化する政策の優先事項に適応することです。
休むことのない多腕バンディット(RMAB)におけるこれまでの研究は、公衆衛生の割り当てタスクにおいては成功を収めていることを実証しましたが、進化する政策の優先順位に適応する柔軟性に欠けています。
同時に、ラージ言語モデル (LLM) が、ロボット制御やナビゲーションなどのさまざまなドメインで熟練した自動プランナーとして登場しました。
この論文では、RMAB の意思決定言語モデルである DLM を提案します。
人間の言語コマンドを使用して、困難な公衆衛生環境に合わせて RMAB ポリシーを動的に微調整できるようにするために、LLM を自動プランナーとして使用して、(1) 人間のポリシー設定プロンプトを解釈し、(2) マルチエージェント RL のコード報酬関数を提案することを提案します。
(3) RMAB シミュレーションからのフィードバックを使用して生成された報酬を反復処理し、ポリシーの結果を効果的に適応させます。
妊娠中の母親の予防ケアを推進するインドの公衆衛生機関であるARMMANと協力して、私たちはシミュレーション研究を実施し、DLMが入力として人間の言語コマンドのみを使用して政策の結果を動的に形成できることを示しました。
要約(オリジナル)
Efforts to reduce maternal mortality rate, a key UN Sustainable Development target (SDG Target 3.1), rely largely on preventative care programs to spread critical health information to high-risk populations. These programs face two important challenges: efficiently allocating limited health resources to large beneficiary populations, and adapting to evolving policy priorities. While prior works in restless multi-armed bandit (RMAB) demonstrated success in public health allocation tasks, they lack flexibility to adapt to evolving policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept, automated planners in various domains, including robotic control and navigation. In this paper, we propose DLM: a Decision Language Model for RMABs. To enable dynamic fine-tuning of RMAB policies for challenging public health settings using human-language commands, we propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose code reward functions for a multi-agent RL environment for RMABs, and (3) iterate on the generated reward using feedback from RMAB simulations to effectively adapt policy outcomes. In collaboration with ARMMAN, an India-based public health organization promoting preventative care for pregnant mothers, we conduct a simulation study, showing DLM can dynamically shape policy outcomes using only human language commands as input.
arxiv情報
著者 | Nikhil Behari,Edwin Zhang,Yunfan Zhao,Aparna Taneja,Dheeraj Nagaraj,Milind Tambe |
発行日 | 2024-02-22 18:58:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google