Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation

要約

電子カルテ(EHR)の要約は、患者にとっても医療従事者にとっても、「画面を見ている時間」を大幅に短縮することができる。近年、EHRの要約には最先端のニューラル・モデルを用いた機械学習パイプラインが採用されている。しかし、これらのモデルは十分とは言えない結果を出しており、それはトレーニングのために十分な注釈付きデータを得ることが困難であることに起因している。さらに、要約においてEHRの全内容を考慮しなければならないという要件は、最新の大規模言語モデル(LLM)における注意メカニズムが、入力のサイズという点で二次的な複雑さを追加するという事実のために、低いパフォーマンスをもたらしてきた。我々は、最新のLLMを用いて、意味検索、検索拡張生成(RAG)、質問応答を組み合わせることにより、これらの欠点を緩和する方法を提案する。我々のアプローチでは、要約とは、主題専門家(SME)によって重要とみなされた特定の質問に対する答えを抽出することである。我々のアプローチは非常に効率的であり、最小限のトレーニングしか必要とせず、LLMの「幻覚」問題に悩まされることもない。

要約(オリジナル)

Summarization of electronic health records (EHRs) can substantially minimize ‘screen time’ for both patients as well as medical personnel. In recent years summarization of EHRs have employed machine learning pipelines using state of the art neural models. However, these models have produced less than adequate results that are attributed to the difficulty of obtaining sufficient annotated data for training. Moreover, the requirement to consider the entire content of an EHR in summarization has resulted in poor performance due to the fact that attention mechanisms in modern large language models (LLMs) adds a quadratic complexity in terms of the size of the input. We propose here a method that mitigates these shortcomings by combining semantic search, retrieval augmented generation (RAG) and question-answering using the latest LLMs. In our approach summarization is the extraction of answers to specific questions that are deemed important by subject-matter experts (SMEs). Our approach is quite efficient; requires minimal to no training; does not suffer from the ‘hallucination’ problem of LLMs; and it ensures diversity, since the summary will not have repeated content but diverse answers to specific questions.

arxiv情報

著者 Walid Saba,Suzanne Wendelken,James. Shanahan
発行日 2024-01-03 00:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク