Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?

要約

背景: 情報抽出 (IE) は臨床自然言語処理 (NLP) において重要です。
大規模言語モデル (LLM) は生成タスクでは優れていますが、抽出タスクでのパフォーマンスについては議論が続いています。
方法: 4 つの情報源 (UT の医師、MTSamples、MIMIC-III、および i2b2) からの 1,588 件の臨床ノートを使用して、固有表現認識 (NER) と関係抽出 (RE) を調査しました。
私たちは、4 つの臨床エンティティと 16 の修飾子をカバーする注釈付きコーパスを開発し、パフォーマンス、汎用性、計算リソース、および BiomedBERT に対するスループットの観点から、命令調整された LLaMA-2 および LLaMA-3 を BiomedBERT と比較しました。
結果: LLaMA モデルは、すべてのデータセットにわたって BiomedBERT を上回りました。
十分なトレーニング データがあれば、LLaMA はわずかな改善を示しました (NER で 1%、RE で 1.5 ~ 3.7%)。
トレーニング データが限られている場合、改善はさらに大きくなりました。
目に見えない i2b2 データでは、LLaMA-3-70B は BiomedBERT を NER で 7% (F1)、RE で 4% 上回りました。
ただし、LLaMA モデルはより多くのコンピューティング リソースを必要とし、実行速度が最大 28 倍遅くなりました。
私たちは、両方のモデルを備えた臨床 IE パッケージ「Kiwi」を実装しました。https://kiwi.clinicalnlp.org/ で入手できます。
結論: この研究は、オープンソース LLM を使用した包括的な臨床 IE システムを開発および評価した最初の研究の 1 つです。
結果は、臨床 NER および RE では LLaMA モデルが BiomedBERT よりも優れたパフォーマンスを示しますが、計算コストが高く、スループットが低いことを示しています。
これらの調査結果は、臨床 IE アプリケーション向けに LLM と従来のディープ ラーニング手法のどちらを選択するかは、パフォーマンス メトリクスと、利用可能なコンピューティング リソースや意図したユースケース シナリオなどの実際的な考慮事項の両方を考慮して、タスク固有のものにすべきであることを強調しています。

要約(オリジナル)

Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BiomedBERT in terms of performance, generalizability, computational resources, and throughput to BiomedBERT. Results: LLaMA models outperformed BiomedBERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BiomedBERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented ‘Kiwi,’ a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BiomedBERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.

arxiv情報

著者 Yan Hu,Xu Zuo,Yujia Zhou,Xueqing Peng,Jimin Huang,Vipina K. Keloth,Vincent J. Zhang,Ruey-Ling Weng,Qingyu Chen,Xiaoqian Jiang,Kirk E. Roberts,Hua Xu
発行日 2024-11-15 07:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク