General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports

要約

放射線科医は、情報システムで利用されると臨床ケアにとって価値のある非構造化データを生成します。
ただし、スタイルが異なるため、使用方法が制限されます。
研究では、胸部放射線検査レポートから関連する特徴を抽出し、それらを共通データ要素 (CDE) に標準化する際に、ドメイン適応言語モデル (RadLing) と汎用 LLM (GPT-4) を使用するシステムを比較しています。
3 人の放射線科医が、1399 件の胸部 XR レポート (900 件のトレーニング、499 件のテスト) の遡及的データセットに注釈を付け、事前に選択された 44 の関連 CDE にマッピングしました。
GPT-4 システムは、値を抽出して CDE にマッピングするために、レポート、機能セット、値セット、および動的な少数ショットを要求されました。
出力されたキー:値のペアは両方の段階で参照標準と比較され、同一の一致が TP とみなされました。
抽出の F1 スコアは、RadLing ベースのシステムでは 97%、GPT-4 システムでは 78% でした。
マッピングの F1 スコアは、RadLing で 98%、GPT-4 で 94% でした。
差は統計的に有意でした (P<.001)。 RadLing のドメイン適応埋め込みは特徴抽出において優れており、その軽量マッパーは CDE 割り当てにおける f1 スコアが優れていました。 RadLing システムは、不在 (99% 対 64%) と不特定 (99% 対 89%) を区別する高い能力も実証しました。 RadLing システムのドメインに適応した埋め込みは、より適切な数ショット プロンプトを提供することで、GPT-4 システムのパフォーマンスを 92% 向上させるのに役立ちました。 RadLing システムは、ローカル展開やランタイム コストの削減などの運用上の利点を提供します。

要約(オリジナル)

Radiologists produce unstructured data that can be valuable for clinical care when consumed by information systems. However, variability in style limits usage. Study compares system using domain-adapted language model (RadLing) and general-purpose LLM (GPT-4) in extracting relevant features from chest radiology reports and standardizing them to common data elements (CDEs). Three radiologists annotated a retrospective dataset of 1399 chest XR reports (900 training, 499 test) and mapped to 44 pre-selected relevant CDEs. GPT-4 system was prompted with report, feature set, value set, and dynamic few-shots to extract values and map to CDEs. Output key:value pairs were compared to reference standard at both stages and an identical match was considered TP. F1 score for extraction was 97% for RadLing-based system and 78% for GPT-4 system. F1 score for mapping was 98% for RadLing and 94% for GPT-4; difference was statistically significant (P<.001). RadLing's domain-adapted embeddings were better in feature extraction and its light-weight mapper had better f1 score in CDE assignment. RadLing system also demonstrated higher capabilities in differentiating between absent (99% vs 64%) and unspecified (99% vs 89%). RadLing system's domain-adapted embeddings helped improve performance of GPT-4 system to 92% by giving more relevant few-shot prompts. RadLing system offers operational advantages including local deployment and reduced runtime costs.

arxiv情報

著者 Ali H. Dhanaliwala,Rikhiya Ghosh,Sanjeev Kumar Karn,Poikavila Ullaskrishnan,Oladimeji Farri,Dorin Comaniciu,Charles E. Kahn
発行日 2024-04-09 13:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.IV パーマリンク