A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health

要約

Restless Multi-armed Bandits (RMAB) は、公衆衛生環境における多数の受益者集団へのリソース配分の最適化に成功していることを実証しています。
残念ながら、RMAB モデルには、進化する公衆衛生政策の優先事項に適応する柔軟性がありません。
同時に、ラージ言語モデル (LLM) が、ロボット制御とナビゲーションの領域にわたる熟練した自動化プランナーとして登場しました。
この論文では、公衆衛生環境において人間の言語コマンドを使用して RMAB ポリシーを動的に微調整できるようにする、RMAB の意思決定言語モデル (DLM) を提案します。
我々は、(1) 人間のポリシー設定プロンプトを解釈し、(2) マルチエージェント RMAB 環境用のコードとして報酬関数を提案し、(3) 地上の RMAB シミュレーションからのフィードバックを使用して生成された報酬関数を反復するための自動プランナーとして LLM を使用することを提案します。
妊娠中の母親の予防ケアを推進するインドを拠点とする非営利団体 ARMMAN と協力して、DLM の適用例を説明します。ARMMAN は現在、RMAB ポリシーに依存して、リソースの少ない人々に医療従事者の呼び出しを最適に割り当てています。
私たちは、Gemini Pro モデルを使用したシミュレーションでテクノロジーのデモンストレーションを実施し、人間のプロンプトのみを入力として使用して DLM が政策の結果を動的に形成できることを示しました。

要約(オリジナル)

Restless multi-armed bandits (RMAB) have demonstrated success in optimizing resource allocation for large beneficiary populations in public health settings. Unfortunately, RMAB models lack flexibility to adapt to evolving public health policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept automated planners across domains of robotic control and navigation. In this paper, we propose a Decision Language Model (DLM) for RMABs, enabling dynamic fine-tuning of RMAB policies in public health settings using human-language commands. We propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose reward functions as code for a multi-agent RMAB environment, and (3) iterate on the generated reward functions using feedback from grounded RMAB simulations. We illustrate the application of DLM in collaboration with ARMMAN, an India-based non-profit promoting preventative care for pregnant mothers, that currently relies on RMAB policies to optimally allocate health worker calls to low-resource populations. We conduct a technology demonstration in simulation using the Gemini Pro model, showing DLM can dynamically shape policy outcomes using only human prompts as input.

arxiv情報

著者 Nikhil Behari,Edwin Zhang,Yunfan Zhao,Aparna Taneja,Dheeraj Nagaraj,Milind Tambe
発行日 2024-10-25 13:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク