要約
正確で安全な薬物療法の推奨事項は、特に多発性の場合に効果的な臨床的意思決定に重要です。
ただし、既存のシステムは、相乗的な薬物効果と潜在的な薬物薬物の相互作用の潜在的なものを見落とすポイントワイズ予測パラダイムに依存しています(DDI)。
大規模な言語モデル(LLM)のための細かいリストごとのアライメントフレームワークであるFlameを提案し、薬物による薬物生成の生成を可能にします。
Flameは、各ステップが単一の薬物を追加または除去する順次決定プロセスとして推奨事項を定式化します。
きめ細かい学習信号を提供するために、潜在的な報酬形状を備えた段階的なグループ相対政策最適化(GRPO)を考案します。
さらに、Flameは、構造化された臨床知識と共同情報をLLMSの表現空間に統合することにより、患者のモデリングを強化します。
ベンチマークデータセットの実験は、Flameが最先端のパフォーマンスを達成し、優れた精度、制御可能な安全性のトレードオフ、および多様な臨床シナリオ全体の強力な一般化を提供することを示しています。
私たちのコードは、https://github.com/cxfann/flameで入手できます。
要約(オリジナル)
Accurate and safe medication recommendations are critical for effective clinical decision-making, especially in multimorbidity cases. However, existing systems rely on point-wise prediction paradigms that overlook synergistic drug effects and potential adverse drug-drug interactions (DDIs). We propose FLAME, a fine-grained list-wise alignment framework for large language models (LLMs), enabling drug-by-drug generation of drug lists. FLAME formulates recommendation as a sequential decision process, where each step adds or removes a single drug. To provide fine-grained learning signals, we devise step-wise Group Relative Policy Optimization (GRPO) with potential-based reward shaping, which explicitly models DDIs and optimizes the contribution of each drug to the overall prescription. Furthermore, FLAME enhances patient modeling by integrating structured clinical knowledge and collaborative information into the representation space of LLMs. Experiments on benchmark datasets demonstrate that FLAME achieves state-of-the-art performance, delivering superior accuracy, controllable safety-accuracy trade-offs, and strong generalization across diverse clinical scenarios. Our code is available at https://github.com/cxfann/Flame.
arxiv情報
著者 | Chenxiao Fan,Chongming Gao,Wentao Shi,Yaxin Gong,Zihao Zhao,Fuli Feng |
発行日 | 2025-05-26 16:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google