要約
大規模言語モデル (LLM) は、臨床質問応答 (QA) において素晴らしい可能性を示しており、モデル応答の事実の正確性を確保するための主要なアプローチとして検索拡張生成 (RAG) が台頭しています。
ただし、現在の自動化された RAG メトリクスは、臨床および会話のユースケースではパフォーマンスが低くなります。
臨床人間による反応評価の使用は費用がかかり、拡張性がなく、RAG システムの継続的な反復開発には役に立ちません。
これらの課題に対処するために、当社は、RAG を活用した臨床 QA システムを評価するための自動化されたスケーラブルな TRIaD である ASTRID を導入します。この TRIaD は、コンテキスト関連性 (CR)、拒否精度 (RA)、会話忠実度 (CF) の 3 つの指標で構成されます。
私たちの新しい評価指標である CF は、会話要素を損なうことなく、ナレッジ ベースに対するモデルの応答の忠実性をより適切に捉えるように設計されています。
私たちのトライアドを検証するために、白内障手術(世界最大規模の手術)の外科的フォローアップ中に LLM ベースの QA エージェントに投げかけられた 200 を超える実際の患者の質問のデータセットを厳選し、緊急のために臨床医が選択した質問を追加しました。
、臨床および非臨床の領域外シナリオ。
私たちは、CF が会話のユースケースに対する既存の定義よりも忠実さに関する人間の評価をより正確に予測できることを実証します。
さらに、CF、RA、および CR からなる 3 つを使用した評価が、不適切、有害、または役に立たない応答についての臨床医の評価と一致していることを示します。
最後に、9 つの異なる LLM を使用して、3 つの指標が人間の評価と密接に一致することを実証し、LLM 主導の自動評価パイプラインでこれらの指標が使用できる可能性を強調しています。
また、これらの実験のプロンプトとデータセットも公開し、さらなる研究と開発に貴重なリソースを提供します。
要約(オリジナル)
Large Language Models (LLMs) have shown impressive potential in clinical question answering (QA), with Retrieval Augmented Generation (RAG) emerging as a leading approach for ensuring the factual accuracy of model responses. However, current automated RAG metrics perform poorly in clinical and conversational use cases. Using clinical human evaluations of responses is expensive, unscalable, and not conducive to the continuous iterative development of RAG systems. To address these challenges, we introduce ASTRID – an Automated and Scalable TRIaD for evaluating clinical QA systems leveraging RAG – consisting of three metrics: Context Relevance (CR), Refusal Accuracy (RA), and Conversational Faithfulness (CF). Our novel evaluation metric, CF, is designed to better capture the faithfulness of a model’s response to the knowledge base without penalising conversational elements. To validate our triad, we curate a dataset of over 200 real-world patient questions posed to an LLM-based QA agent during surgical follow-up for cataract surgery – the highest volume operation in the world – augmented with clinician-selected questions for emergency, clinical, and non-clinical out-of-domain scenarios. We demonstrate that CF can predict human ratings of faithfulness better than existing definitions for conversational use cases. Furthermore, we show that evaluation using our triad consisting of CF, RA, and CR exhibits alignment with clinician assessment for inappropriate, harmful, or unhelpful responses. Finally, using nine different LLMs, we demonstrate that the three metrics can closely agree with human evaluations, highlighting the potential of these metrics for use in LLM-driven automated evaluation pipelines. We also publish the prompts and datasets for these experiments, providing valuable resources for further research and development.
arxiv情報
著者 | Mohita Chowdhury,Yajie Vera He,Aisling Higham,Ernest Lim |
発行日 | 2025-01-14 15:46:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google