Accurate and Well-Calibrated ICD Code Assignment Through Attention Over Diverse Label Embeddings


国際疾病分類(International Classification of Diseases:ICD)は世界中で採用されているが、臨床テキストに手作業でICDコードを割り当てるのは、時間がかかり、エラーが発生しやすく、コストがかかるため、自動化アプローチの開発の動機となっている。本稿では、ICDコーディングを自動化するための新しいアプローチについて述べる。特に、テキストエンコーダとして強力なTransformerベースのモデルを採用し、長文の臨床ナラティブを扱うために、(a)ベースエンコーダモデルをLongformerに適合させるか、(b)テキストをチャンクに分割し、各チャンクを独立に処理する方法を検討した。エンコーダによって生成された表現は、多様なICDコードの同義語を探索するラベル埋め込み機構と組み合わされる。MIMIC-IIIデータセットの異なる分割を用いた実験により、提案アプローチはICD符号化における現在の最先端モデルを凌駕し、ラベル埋め込みが良好な性能に大きく寄与していることが示される。また、我々のアプローチは適切に較正された分類結果を導き、定量化などの下流のタスクに効果的に情報を提供することができる。


Although the International Classification of Diseases (ICD) has been adopted worldwide, manually assigning ICD codes to clinical text is time-consuming, error-prone, and expensive, motivating the development of automated approaches. This paper describes a novel approach for automated ICD coding, combining several ideas from previous related work. We specifically employ a strong Transformer-based model as a text encoder and, to handle lengthy clinical narratives, we explored either (a) adapting the base encoder model into a Longformer, or (b) dividing the text into chunks and processing each chunk independently. The representations produced by the encoder are combined with a label embedding mechanism that explores diverse ICD code synonyms. Experiments with different splits of the MIMIC-III dataset show that the proposed approach outperforms the current state-of-the-art models in ICD coding, with the label embeddings significantly contributing to the good performance. Our approach also leads to properly calibrated classification results, which can effectively inform downstream tasks such as quantification.


著者 Gonçalo Gomes,Isabel Coutinho,Bruno Martins
発行日 2024-02-05 16:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク