Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

要約

医療システムは、大量の電子医療記録 (EHR) を継続的に生成し、通常は Fast Healthcare Interoperability Resources (FHIR) 標準に保存されます。
これらの記録には豊富な情報があるにもかかわらず、その複雑さと量により、ユーザーが重要な健康に関する洞察を取得して解釈することが困難になっています。
大規模言語モデル (LLM) の最近の進歩により、医療データに対するセマンティックな質問応答 (QA) が可能になり、ユーザーが自分の健康記録をより効果的に操作できるソリューションが提供されます。
ただし、プライバシーとコンプライアンスを確保するには、LLM のエッジおよびプライベート展開が必要です。
このペーパーでは、最初にユーザー クエリに最も関連性の高い FHIR リソースを特定し (タスク 1)、次にこれらのリソースに基づいてクエリに応答する (タスク 2) という、EHR を介したセマンティック QA への新しいアプローチを提案します。
プライベートでホストされ、微調整された LLM のパフォーマンスを調査し、GPT-4 や GPT-4o などのベンチマーク モデルに対して評価します。
私たちの結果は、微調整された LLM は、サイズが 250 分の 1 でありながら、GPT-4 ファミリ モデルよりもタスク 1 の F1 スコアで 0.55%、タスク 2 の Meteor タスクで 42% 優れていることを示しています。
さらに、逐次的な微調整、モデルの自己評価 (自己愛的評価)、トレーニング データ サイズのパフォーマンスへの影響など、LLM の使用の高度な側面を調べます。
モデルとデータセットはここから入手できます: https://huggingface.co/genloop

要約(オリジナル)

Healthcare systems continuously generate vast amounts of electronic health records (EHRs), commonly stored in the Fast Healthcare Interoperability Resources (FHIR) standard. Despite the wealth of information in these records, their complexity and volume make it difficult for users to retrieve and interpret crucial health insights. Recent advances in Large Language Models (LLMs) offer a solution, enabling semantic question answering (QA) over medical data, allowing users to interact with their health records more effectively. However, ensuring privacy and compliance requires edge and private deployments of LLMs. This paper proposes a novel approach to semantic QA over EHRs by first identifying the most relevant FHIR resources for a user query (Task1) and subsequently answering the query based on these resources (Task2). We explore the performance of privately hosted, fine-tuned LLMs, evaluating them against benchmark models such as GPT-4 and GPT-4o. Our results demonstrate that fine-tuned LLMs, while 250x smaller in size, outperform GPT-4 family models by 0.55% in F1 score on Task1 and 42% on Meteor Task in Task2. Additionally, we examine advanced aspects of LLM usage, including sequential fine-tuning, model self-evaluation (narcissistic evaluation), and the impact of training data size on performance. The models and datasets are available here: https://huggingface.co/genloop

arxiv情報

著者 Sara Kothari,Ayush Gupta
発行日 2025-01-23 14:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク