Contextualized Medication Information Extraction Using Transformer-based Deep Learning Architectures

要約

目的: 自然言語処理 (NLP) システムを開発して、薬の変化を理解するのに役立つ薬とコンテキスト情報を抽出します。
このプロジェクトは、2022 n2c2 チャレンジの一部です。
材料と方法: 薬の言及の抽出、イベントの分類 (薬の変更が議論されているかどうかを示す)、および薬の変更のコンテキストを薬の変更に関連する 5 つの直交する次元に分類するためのコンテキスト分類のための NLP システムを開発しました。
3 つのサブタスク用に 6 つの最先端の事前トレーニング済み変換モデルを調査しました。これには、900 億語を超えるテキストを使用して事前トレーニングされた大規模な言語モデルである GatorTron が含まれます (2 億 9000 万を超える臨床ノートからの 800 億語を含む)。
フロリダヘルス)。
2022 n2c2 主催者から提供された注釈付きデータと評価スクリプトを使用して、NLP システムを評価しました。
結果:当社の GatorTron モデルは、薬物抽出 (3 位) で 0.9828 という最高の F1 スコア、イベント分類 (2 位) で 0.9379、コンテキスト分類で 0.9126 という最高のマイクロ平均精度を達成しました。
GatorTron は、より小さな一般的な英語のテキストと臨床テキストのコーパスを使用して事前トレーニングされた既存の変換モデルよりも優れており、大規模な言語モデルの利点を示しています。
結論: この研究は、臨床の物語から文脈に応じた投薬情報を抽出するために大規模なトランスフォーマー モデルを使用する利点を示しました。

要約(オリジナル)

Objective: To develop a natural language processing (NLP) system to extract medications and contextual information that help understand drug changes. This project is part of the 2022 n2c2 challenge. Materials and methods: We developed NLP systems for medication mention extraction, event classification (indicating medication changes discussed or not), and context classification to classify medication changes context into 5 orthogonal dimensions related to drug changes. We explored 6 state-of-the-art pretrained transformer models for the three subtasks, including GatorTron, a large language model pretrained using >90 billion words of text (including >80 billion words from >290 million clinical notes identified at the University of Florida Health). We evaluated our NLP systems using annotated data and evaluation scripts provided by the 2022 n2c2 organizers. Results:Our GatorTron models achieved the best F1-scores of 0.9828 for medication extraction (ranked 3rd), 0.9379 for event classification (ranked 2nd), and the best micro-average accuracy of 0.9126 for context classification. GatorTron outperformed existing transformer models pretrained using smaller general English text and clinical text corpora, indicating the advantage of large language models. Conclusion: This study demonstrated the advantage of using large transformer models for contextual medication information extraction from clinical narratives.

arxiv情報

著者 Aokun Chen,Zehao Yu,Xi Yang,Yi Guo,Jiang Bian,Yonghui Wu
発行日 2023-03-14 22:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク