要約
患者の医療文書へのアクセスを増やすことで医療が改善されますが、この利点は、さまざまな健康リテラシーレベルと複雑な医療用語によって制限されます。
大規模な言語モデル(LLMS)は、医療情報を簡素化することでソリューションを提供します。
ただし、標準化された評価リソースが不足しているため、安全で患者に優しいテキスト生成についてLLMを評価することは困難です。
このギャップを埋めるために、Medisumqaを開発しました。
Medisumqaは、LLMベースの質問回答と手動の品質チェックを組み合わせた自動化されたパイプラインを通じて、Mimic-IV放電概要から作成されたデータセットです。
このデータセットを使用して、患者指向の質問回答に関するさまざまなLLMを評価します。
私たちの調査結果は、汎用LLMが生物医学に適応したモデルを頻繁に上回る一方で、自動化されたメトリックが人間の判断と相関することを明らかにしています。
PhysionetでMedisumqaをリリースすることにより、患者の理解を高め、最終的にケアの結果を改善するために、LLMSの開発を進めることを目指しています。
要約(オリジナル)
While increasing patients’ access to medical documents improves medical care, this benefit is limited by varying health literacy levels and complex medical terminology. Large language models (LLMs) offer solutions by simplifying medical information. However, evaluating LLMs for safe and patient-friendly text generation is difficult due to the lack of standardized evaluation resources. To fill this gap, we developed MeDiSumQA. MeDiSumQA is a dataset created from MIMIC-IV discharge summaries through an automated pipeline combining LLM-based question-answer generation with manual quality checks. We use this dataset to evaluate various LLMs on patient-oriented question-answering. Our findings reveal that general-purpose LLMs frequently surpass biomedical-adapted models, while automated metrics correlate with human judgment. By releasing MeDiSumQA on PhysioNet, we aim to advance the development of LLMs to enhance patient understanding and ultimately improve care outcomes.
arxiv情報
著者 | Amin Dada,Osman Alperen Koras,Marie Bauer,Amanda Butler,Kaleb E. Smith,Jens Kleesiek,Julian Friedrich |
発行日 | 2025-02-05 15:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google