LLM-Mini-CEX: Automatic Evaluation of Large Language Model for Diagnostic Conversation

要約

診断効率を向上させるために、医療診断用の LLM の開発への関心が高まっています。
魅力的な技術的可能性にもかかわらず、統一された包括的な評価基準がないため、医療用 LLM の品質と潜在的なリスクを評価できず、医療シナリオへの LLM の適用がさらに妨げられています。
さらに、現在の評価は、診断対話を取得するための LLM との労働集約的な対話と、診断対話の品質に関する人間による評価に大きく依存しています。
統一的かつ包括的な評価基準の欠如に対処するために、私たちはまず、オリジナルの Mini-CEX に基づいて LLM の診断能力を効果的に評価するために、LLM 固有の Mini-CEX と呼ばれる評価基準を確立します。
労働集約的な対話の問題に対処するために、LLM との自動会話を行う患者シミュレーターを開発し、診断ダイアログを自動的に評価するために ChatGPT を利用します。
実験結果は、LLM 固有の Mini-CEX が医療診断対話を評価するのに適切かつ必要であることを示しています。
さらに、ChatGPT は人間性の指標に関する手動評価を置き換えることができ、異なる LLM 間の再現可能な自動比較を提供します。

要約(オリジナル)

There is an increasing interest in developing LLMs for medical diagnosis to improve diagnosis efficiency. Despite their alluring technological potential, there is no unified and comprehensive evaluation criterion, leading to the inability to evaluate the quality and potential risks of medical LLMs, further hindering the application of LLMs in medical treatment scenarios. Besides, current evaluations heavily rely on labor-intensive interactions with LLMs to obtain diagnostic dialogues and human evaluation on the quality of diagnosis dialogue. To tackle the lack of unified and comprehensive evaluation criterion, we first initially establish an evaluation criterion, termed LLM-specific Mini-CEX to assess the diagnostic capabilities of LLMs effectively, based on original Mini-CEX. To address the labor-intensive interaction problem, we develop a patient simulator to engage in automatic conversations with LLMs, and utilize ChatGPT for evaluating diagnosis dialogues automatically. Experimental results show that the LLM-specific Mini-CEX is adequate and necessary to evaluate medical diagnosis dialogue. Besides, ChatGPT can replace manual evaluation on the metrics of humanistic qualities and provides reproducible and automated comparisons between different LLMs.

arxiv情報

著者 Xiaoming Shi,Jie Xu,Jinru Ding,Jiali Pang,Sichen Liu,Shuqing Luo,Xingwei Peng,Lu Lu,Haihong Yang,Mingtao Hu,Tong Ruan,Shaoting Zhang
発行日 2023-08-15 08:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク