XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare

要約

大規模言語モデル (LLM) を医療診断に統合すると、臨床上の意思決定に有望な手段が提供されます。
この研究では、多層構造化プロンプトを使用して医療分野の知識を統合することによる、ゼロショット/少数ショットのインコンテキスト学習 (ICL) のための新しい方法の開発の概要を説明します。
また、ユーザーと LLM の間の 2 つのコミュニケーション スタイルの有効性も調査します。1 つはデータを段階的に処理する数値会話 (NC) スタイル、もう 1 つは長いナラティブ プロンプトを使用する自然言語シングル ターン (NL-ST) スタイルです。
私たちの研究では、さまざまな数回のショットのシナリオでの 920 人の患者記録のデータセットを使用して、性別による偏見や偽陰性率を含む診断精度と危険因子を系統的に評価しています。
結果は、従来の臨床機械学習 (ML) モデルが一般に、ゼロショット設定および少数ショット設定で LLM よりも優れたパフォーマンスを発揮することを示しています。
ただし、ドメイン知識のソースとして効果的な説明可能な AI (XAI) メソッドと並行して少数ショットのサンプルを採用すると、パフォーマンスのギャップは大幅に縮小します。
さらに、十分な時間をかけて例の数を増やすと、会話スタイル (NC) は ML モデルのパフォーマンスとほぼ一致します。
最も注目すべき点は、LLM は ML モデルと比較して同等またはそれ以上のコスト重視の精度を実証していることです。
この調査により、適切なドメイン知識とカスタマイズされたコミュニケーション戦略により、LLM が診断プロセスを大幅に強化できることが確認されました。
この調査結果は、LLM アプリケーションの精度を向上させ、バイアスを軽減するには、トレーニング例の数とコミュニケーション スタイルを最適化することの重要性を強調しています。

要約(オリジナル)

The integration of Large Language Models (LLMs) into healthcare diagnostics offers a promising avenue for clinical decision-making. This study outlines the development of a novel method for zero-shot/few-shot in-context learning (ICL) by integrating medical domain knowledge using a multi-layered structured prompt. We also explore the efficacy of two communication styles between the user and LLMs: the Numerical Conversational (NC) style, which processes data incrementally, and the Natural Language Single-Turn (NL-ST) style, which employs long narrative prompts. Our study systematically evaluates the diagnostic accuracy and risk factors, including gender bias and false negative rates, using a dataset of 920 patient records in various few-shot scenarios. Results indicate that traditional clinical machine learning (ML) models generally outperform LLMs in zero-shot and few-shot settings. However, the performance gap narrows significantly when employing few-shot examples alongside effective explainable AI (XAI) methods as sources of domain knowledge. Moreover, with sufficient time and an increased number of examples, the conversational style (NC) nearly matches the performance of ML models. Most notably, LLMs demonstrate comparable or superior cost-sensitive accuracy relative to ML models. This research confirms that, with appropriate domain knowledge and tailored communication strategies, LLMs can significantly enhance diagnostic processes. The findings highlight the importance of optimizing the number of training examples and communication styles to improve accuracy and reduce biases in LLM applications.

arxiv情報

著者 Fatemeh Nazary,Yashar Deldjoo,Tommaso Di Noia,Eugenio di Sciascio
発行日 2024-05-15 11:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク