Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports

要約

目的: オープンウェイト大規模言語モデル (LM) と検索拡張生成 (RAG) を使用して、非構造化放射線医学および病理レポートから構造化臨床情報を抽出する自動システムを開発および評価し、抽出パフォーマンスに対するモデル構成変数の影響を評価すること

方法と材料: この研究では、脳腫瘍報告データシステム(BT-RADS)スコアの注釈が付けられた7,294件の放射線医学レポートと、イソクエン酸デヒドロゲナーゼ(IDH)変異状態の注釈が付けられた2,154件の病理学レポートの2つのデータセットを利用しました。
自動パイプラインは、さまざまな LM および RAG 構成のパフォーマンスをベンチマークするために開発されました。
モデルのサイズ、量子化、プロンプト戦略、出力フォーマット、および推論パラメーターの影響が体系的に評価されました。
結果: 最もパフォーマンスの高いモデルは、放射線医学レポートから BT-RADS スコアを抽出する精度が 98% 以上、病理学レポートから IDH 変異ステータスを抽出する精度が 90% 以上を達成しました。
最上位モデルは医療用に微調整されたllama3です。
より大規模で新しい、ドメインが細かく調整されたモデルは、古いモデルや小規模なモデルよりも常に優れたパフォーマンスを発揮します。
モデルの量子化によるパフォーマンスへの影響は最小限でした。
少ないショットで精度が大幅に向上しました。
RAG は複雑な病理学レポートのパフォーマンスを向上させましたが、短い放射線医学レポートのパフォーマンスは向上しませんでした。
結論: オープン LM は、ローカルのプライバシー保護アプリケーションを使用して、非構造化臨床レポートから構造化臨床データを自動抽出する大きな可能性を実証します。
最適なパフォーマンスを得るには、慎重なモデルの選択、迅速なエンジニアリング、および注釈付きデータを使用した半自動最適化が重要です。
これらのアプローチは、研究ワークフローで実際に使用するのに十分な信頼性がある可能性があり、医療データ抽出における人間と機械のコラボレーションの可能性を強調しています。

要約(オリジナル)

Purpose: To develop and evaluate an automated system for extracting structured clinical information from unstructured radiology and pathology reports using open-weights large language models (LMs) and retrieval augmented generation (RAG), and to assess the effects of model configuration variables on extraction performance. Methods and Materials: The study utilized two datasets: 7,294 radiology reports annotated for Brain Tumor Reporting and Data System (BT-RADS) scores and 2,154 pathology reports annotated for isocitrate dehydrogenase (IDH) mutation status. An automated pipeline was developed to benchmark the performance of various LMs and RAG configurations. The impact of model size, quantization, prompting strategies, output formatting, and inference parameters was systematically evaluated. Results: The best performing models achieved over 98% accuracy in extracting BT-RADS scores from radiology reports and over 90% for IDH mutation status extraction from pathology reports. The top model being medical fine-tuned llama3. Larger, newer, and domain fine-tuned models consistently outperformed older and smaller models. Model quantization had minimal impact on performance. Few-shot prompting significantly improved accuracy. RAG improved performance for complex pathology reports but not for shorter radiology reports. Conclusions: Open LMs demonstrate significant potential for automated extraction of structured clinical data from unstructured clinical reports with local privacy-preserving application. Careful model selection, prompt engineering, and semi-automated optimization using annotated data are critical for optimal performance. These approaches could be reliable enough for practical use in research workflows, highlighting the potential for human-machine collaboration in healthcare data extraction.

arxiv情報

著者 Mohamed Sobhi Jabal,Pranav Warman,Jikai Zhang,Kartikeye Gupta,Ayush Jain,Maciej Mazurowski,Walter Wiggins,Kirti Magudia,Evan Calabrese
発行日 2024-09-18 13:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, I.2 パーマリンク