A UMLS-Augmented Framework for Improving Factuality in Large Language Models within Healthcare

要約

大規模言語モデル (LLM) は強力なテキスト生成機能を実証し、医療分野に前例のない革新をもたらしました。
LLM は医療分野での応用に大きな期待を寄せていますが、これらのモデルは確立された医学的事実から逸脱したコンテンツを生成したり、潜在的なバイアスを示したりする可能性があるため、LLM を実際の臨床シナリオに適用することは大きな課題となります。
私たちの研究では、医療コミュニティにより良いサービスを提供することを目的として、統一医療言語システム (UMLS) に基づいた拡張 LLM フレームワークを開発しています。
ベンチマーク モデルとして LLaMa2-13b-chat および ChatGPT-3.5 を採用し、LiveQA テスト セットの 104 の質問に対して ROUGE スコアと BERTScore を使用して自動評価を実施します。
さらに、事実性、完全性、読みやすさ、関連性の 4 つの側面に基づいて医師の評価基準を確立します。
ChatGPT-3.5 は、LiveQA テスト セットに関する 20 の質問による医師の評価に使用されます。
複数の研修医が生成されたコンテンツを評価するためにブラインドレビューを実施しました。その結果、このフレームワークが生成されたコンテンツの事実性、完全性、関連性を効果的に強化していることが示されました。
私たちの研究は、UMLS 拡張 LLM の使用の有効性を実証し、医療質問応答における LLM の潜在的な応用価値を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated powerful text generation capabilities, bringing unprecedented innovation to the healthcare field. While LLMs hold immense promise for applications in healthcare, applying them to real clinical scenarios presents significant challenges, as these models may generate content that deviates from established medical facts and even exhibit potential biases. In our research, we develop an augmented LLM framework based on the Unified Medical Language System (UMLS), aiming to better serve the healthcare community. We employ LLaMa2-13b-chat and ChatGPT-3.5 as our benchmark models, and conduct automatic evaluations using the ROUGE Score and BERTScore on 104 questions from the LiveQA test set. Additionally, we establish criteria for physician-evaluation based on four dimensions: Factuality, Completeness, Readability and Relevancy. ChatGPT-3.5 is used for physician evaluation with 20 questions on the LiveQA test set. Multiple resident physicians conducted blind reviews to evaluate the generated content, and the results indicate that this framework effectively enhances the factuality, completeness, and relevance of generated content. Our research demonstrates the effectiveness of using UMLS-augmented LLMs and highlights the potential application value of LLMs in in medical question-answering.

arxiv情報

著者 Rui Yang,Edison Marrese-Taylor,Yuhe Ke,Lechao Cheng,Qingyu Chen,Irene Li
発行日 2023-10-04 12:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク