Improving ICD coding using Chapter based Named Entities and Attentional Models

要約

自然言語処理 (NLP) の最近の進歩により、さまざまなドメインでの自動化が実現しています。
ただし、臨床 NLP は、現実世界のシナリオを正確に反映していない可能性のあるベンチマーク データセットに依存することがよくあります。
NLP の重要なタスクである自動 ICD コーディングでは、通常、MIMIC-III のような時代遅れで不均衡なデータセットが使用されますが、既存の手法では偽陽性が多いため、ミクロ平均 F1 スコアが 0.4 ~ 0.7 になります。
私たちの研究では、章ベースの名前付きエンティティと注意モデルを使用して F1 スコアを向上させる、ICD コーディングへの強化されたアプローチを導入しています。
この方法では、退院概要を ICD-9 の章に分類し、章固有のデータを使用してアテンション モデルを開発するため、コード識別のために外部データを考慮する必要がなくなります。
分類については、第 IV 章を使用して、ニューラル ネットワークを使用せずにバイアスを除去し、主要なエンティティと重みに影響を与え、正確なしきい値を作成し、人間による検証のための解釈可能性を提供します。
検証後、アテンションを備えた双方向ゲートリカレントユニット(GRU)とマルチヘッドアテンションアーキテクチャを備えたトランスフォーマーを使用して、第IV章の3つの頻繁なコードと3つの非頻度コードのアテンションモデルを開発します。
これらのモデルの平均 Micro-F1 スコアは 0.79 および 0.81 であり、ICD コーディングのパフォーマンスが大幅に向上していることがわかります。

要約(オリジナル)

Recent advancements in natural language processing (NLP) have led to automation in various domains. However, clinical NLP often relies on benchmark datasets that may not reflect real-world scenarios accurately. Automatic ICD coding, a vital NLP task, typically uses outdated and imbalanced datasets like MIMIC-III, with existing methods yielding micro-averaged F1 scores between 0.4 and 0.7 due to many false positives. Our research introduces an enhanced approach to ICD coding that improves F1 scores by using chapter-based named entities and attentional models. This method categorizes discharge summaries into ICD-9 Chapters and develops attentional models with chapter-specific data, eliminating the need to consider external data for code identification. For categorization, we use Chapter-IV to de-bias and influence key entities and weights without neural networks, creating accurate thresholds and providing interpretability for human validation. Post-validation, we develop attentional models for three frequent and three non-frequent codes from Chapter-IV using Bidirectional-Gated Recurrent Units (GRUs) with Attention and Transformer with Multi-head Attention architectures. The average Micro-F1 scores of 0.79 and 0.81 from these models demonstrate significant performance improvements in ICD coding.

arxiv情報

著者 Abhijith R. Beeravolu,Mirjam Jonkman,Sami Azam,Friso De Boer
発行日 2024-07-24 12:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク