Modelling Temporal Document Sequences for Clinical ICD Coding

要約

ICD コーディングの問題に関する過去の研究は、主に退院の要約に基づいて臨床コードを予測することに焦点を当てています。
これは、各入院中に生成されたメモのごく一部のみをカバーし、利用可能なすべての臨床メモを分析することでパフォーマンスを向上させる可能性を残しています。
ICDコーディングのために各入院中の臨床メモのシーケンス全体でテキストを使用し、メモの位置、時間、タイプなどのテキストメタデータの埋め込みを組み込む、階層的なトランスフォーマーアーキテクチャを提案します。
すべての臨床ノートを使用するとデータ量が大幅に増加しますが、スーパーコンバージェンスを使用してトレーニング コストを削減できます。
MIMIC-III データセットでモデルを評価します。
私たちのモデルは、退院の要約のみを入力として使用する場合、従来の最先端技術を上回り、すべての臨床メモを入力として使用すると、さらにパフォーマンスが向上します。

要約(オリジナル)

Past studies on the ICD coding problem focus on predicting clinical codes primarily based on the discharge summary. This covers only a small fraction of the notes generated during each hospital stay and leaves potential for improving performance by analysing all the available clinical notes. We propose a hierarchical transformer architecture that uses text across the entire sequence of clinical notes in each hospital stay for ICD coding, and incorporates embeddings for text metadata such as their position, time, and type of note. While using all clinical notes increases the quantity of data substantially, superconvergence can be used to reduce training costs. We evaluate the model on the MIMIC-III dataset. Our model exceeds the prior state-of-the-art when using only discharge summaries as input, and achieves further performance improvements when all clinical notes are used as input.

arxiv情報

著者 Clarence Boon Liang Ng,Diogo Santos,Marek Rei
発行日 2023-02-24 14:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク