MedDoc-Bot: A Chat Tool for Comparative Analysis of Large Language Models in the Context of the Pediatric Hypertension Guideline


本研究では、非商用のオープンソース大規模言語モデル(LLM)であるMeditron、MedAlpaca、Mistral、Llama-2について、PDF形式で保存された医療ガイドラインの解釈における有効性を評価する。具体的なテストシナリオとして、European Society of Cardiology(ESC)が提供する小児と青年の高血圧に関するガイドラインにこれらのモデルを適用した。PythonのライブラリであるStreamlitを活用して、ユーザーフレンドリーな医療文書チャットボットツール(MedDoc-Bot)を開発した。このツールは、権限のあるユーザーがPDFファイルをアップロードして質問を投げかけ、ローカルに保存された4つのLLMから解釈的な回答を生成することを可能にする。小児科の専門家が、ESCガイドラインから抽出した質問と回答を作成することで、評価のベンチマークを提供する。専門家は、モデルが生成した回答を、その忠実度と関連性に基づいて評価する。さらに、METEORとchrFメトリックスコアを評価し、モデルの回答と参照回答の類似性を評価した。我々の研究では、Llama-2とMistralはメトリックス評価において良好な結果を示した。しかし、Llama-2はテキストと表形式のデータを処理するときに遅かった。人間による評価では、Mistral、Meditron、Llama-2によって作成された回答は、妥当な忠実性と関連性を示した。本研究は、LLMの長所と限界に関する貴重な洞察を提供し、今後の医療文書解釈の発展に寄与するものである。オープンソースコード:


This research focuses on evaluating the non-commercial open-source large language models (LLMs) Meditron, MedAlpaca, Mistral, and Llama-2 for their efficacy in interpreting medical guidelines saved in PDF format. As a specific test scenario, we applied these models to the guidelines for hypertension in children and adolescents provided by the European Society of Cardiology (ESC). Leveraging Streamlit, a Python library, we developed a user-friendly medical document chatbot tool (MedDoc-Bot). This tool enables authorized users to upload PDF files and pose questions, generating interpretive responses from four locally stored LLMs. A pediatric expert provides a benchmark for evaluation by formulating questions and responses extracted from the ESC guidelines. The expert rates the model-generated responses based on their fidelity and relevance. Additionally, we evaluated the METEOR and chrF metric scores to assess the similarity of model responses to reference answers. Our study found that Llama-2 and Mistral performed well in metrics evaluation. However, Llama-2 was slower when dealing with text and tabular data. In our human evaluation, we observed that responses created by Mistral, Meditron, and Llama-2 exhibited reasonable fidelity and relevance. This study provides valuable insights into the strengths and limitations of LLMs for future developments in medical document interpretation. Open-Source Code:


著者 Mohamed Yaseen Jabarulla,Steffen Oeltze-Jafra,Philipp Beerbaum,Theodor Uden
発行日 2024-05-06 11:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク