Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports


目的: オープンウェイト大規模言語モデル (LM) と検索拡張生成 (RAG) を使用して、非構造化放射線医学および病理レポートから構造化臨床情報を抽出する自動システムを開発および評価し、抽出パフォーマンスに対するモデル構成変数の影響を評価すること

方法と材料: この研究では、脳腫瘍報告データシステム(BT-RADS)スコアの注釈が付けられた7,294件の放射線医学レポートと、イソクエン酸デヒドロゲナーゼ(IDH)変異状態の注釈が付けられた2,154件の病理学レポートの2つのデータセットを利用しました。
自動パイプラインは、さまざまな LM および RAG 構成のパフォーマンスをベンチマークするために開発されました。
結果: 最もパフォーマンスの高いモデルは、放射線医学レポートから BT-RADS スコアを抽出する精度が 98% 以上、病理学レポートから IDH 変異ステータスを抽出する精度が 90% 以上を達成しました。
RAG は複雑な病理学レポートのパフォーマンスを向上させましたが、短い放射線医学レポートのパフォーマンスは向上しませんでした。
結論: オープン LM は、ローカルのプライバシー保護アプリケーションを使用して、非構造化臨床レポートから構造化臨床データを自動抽出する大きな可能性を実証します。


Purpose: To develop and evaluate an automated system for extracting structured clinical information from unstructured radiology and pathology reports using open-weights large language models (LMs) and retrieval augmented generation (RAG), and to assess the effects of model configuration variables on extraction performance. Methods and Materials: The study utilized two datasets: 7,294 radiology reports annotated for Brain Tumor Reporting and Data System (BT-RADS) scores and 2,154 pathology reports annotated for isocitrate dehydrogenase (IDH) mutation status. An automated pipeline was developed to benchmark the performance of various LMs and RAG configurations. The impact of model size, quantization, prompting strategies, output formatting, and inference parameters was systematically evaluated. Results: The best performing models achieved over 98% accuracy in extracting BT-RADS scores from radiology reports and over 90% for IDH mutation status extraction from pathology reports. The top model being medical fine-tuned llama3. Larger, newer, and domain fine-tuned models consistently outperformed older and smaller models. Model quantization had minimal impact on performance. Few-shot prompting significantly improved accuracy. RAG improved performance for complex pathology reports but not for shorter radiology reports. Conclusions: Open LMs demonstrate significant potential for automated extraction of structured clinical data from unstructured clinical reports with local privacy-preserving application. Careful model selection, prompt engineering, and semi-automated optimization using annotated data are critical for optimal performance. These approaches could be reliable enough for practical use in research workflows, highlighting the potential for human-machine collaboration in healthcare data extraction.


著者 Mohamed Sobhi Jabal,Pranav Warman,Jikai Zhang,Kartikeye Gupta,Ayush Jain,Maciej Mazurowski,Walter Wiggins,Kirti Magudia,Evan Calabrese
発行日 2024-09-18 13:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.IR, cs.LG, I.2 パーマリンク