XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare


大規模言語モデル(Large Language Models:LLM)の医療診断への統合は、臨床的意思決定のための有望な手段を提供する。本研究では、多層構造化されたプロンプトを用いて医療分野の知識を統合することにより、ゼロショット/少数ショットのコンテキスト内学習(ICL)を実現する新しい手法の開発について概説する。また、ユーザとLLMの間の2つのコミュニケーションスタイル、すなわち、データを漸進的に処理するNC(Numerical Conversational)スタイルと、長い物語的プロンプトを用いるNL-ST(Natural Language Single-Turn)スタイルの有効性を探る。 我々の研究では、様々な少数ショットシナリオにおける920人の患者記録のデータセットを用いて、診断精度と、性別バイアスや偽陰性率を含むリスク要因を系統的に評価した。その結果、従来の臨床機械学習(ML)モデルは、ゼロショットおよび少数ショットの設定において、一般的にLLMを上回ることが示された。しかし、効果的な説明可能AI(XAI)手法をドメイン知識のソースとして併用することで、性能差は大幅に縮小する。さらに、十分な時間と例数の増加により、会話スタイル(NC)はMLモデルの性能とほぼ一致する。最も注目すべきは、LLMはMLモデルと比較して、同等かそれ以上のコスト感応精度を示すことである。 この研究により、適切な領域知識とそれに合わせたコミュニケーション戦略により、LLMは診断プロセスを大幅に強化できることが確認された。この研究結果は、LLMの応用において、精度を向上させ、バイアスを減らすために、訓練例の数とコミュニケーションスタイルを最適化することの重要性を強調している。


The integration of Large Language Models (LLMs) into healthcare diagnostics offers a promising avenue for clinical decision-making. This study outlines the development of a novel method for zero-shot/few-shot in-context learning (ICL) by integrating medical domain knowledge using a multi-layered structured prompt. We also explore the efficacy of two communication styles between the user and LLMs: the Numerical Conversational (NC) style, which processes data incrementally, and the Natural Language Single-Turn (NL-ST) style, which employs long narrative prompts. Our study systematically evaluates the diagnostic accuracy and risk factors, including gender bias and false negative rates, using a dataset of 920 patient records in various few-shot scenarios. Results indicate that traditional clinical machine learning (ML) models generally outperform LLMs in zero-shot and few-shot settings. However, the performance gap narrows significantly when employing few-shot examples alongside effective explainable AI (XAI) methods as sources of domain knowledge. Moreover, with sufficient time and an increased number of examples, the conversational style (NC) nearly matches the performance of ML models. Most notably, LLMs demonstrate comparable or superior cost-sensitive accuracy relative to ML models. This research confirms that, with appropriate domain knowledge and tailored communication strategies, LLMs can significantly enhance diagnostic processes. The findings highlight the importance of optimizing the number of training examples and communication styles to improve accuracy and reduce biases in LLM applications.


著者 Fatemeh Nazary,Yashar Deldjoo,Tommaso Di Noia,Eugenio di Sciascio
発行日 2024-06-03 16:23:28+00:00
