Can GPT-3.5 Generate and Code Discharge Summaries?

要約

目的: 低リソースラベルのデータ拡張のために ICD-10 コードを使用して医療文書を生成およびコーディングする際の GPT-3.5 を調査すること。
材料と方法: GPT-3.5 を使用して、MIMIC-IV データセット内の頻度の低い (世代) コードを持つ患者の ICD-10 コード記述のリストに基づいて、9,606 件の退院概要を生成およびコード化しました。
ベースライン トレーニング セットと組み合わせると、拡張トレーニング セットが形成されます。
ニューラルコーディングモデルはベースラインデータと拡張データでトレーニングされ、MIMIC-IV テストセットで評価されました。
完全なコードセット、世代コード、およびそのファミリーに関するミクロおよびマクロ F1 スコアを報告します。
弱い階層混同行列を使用して、後者のコードセットにおけるファミリー内およびファミリー外のコーディング エラーを判定しました。
GPT-3.5 のコーディング パフォーマンスは、プロンプト ガイド付きの自己生成データと実際の MIMIC-IV データの両方で評価されました。
臨床専門家は、生成された文書の臨床的受容性を評価しました。
結果: 拡張はモデルの全体的なパフォーマンスをわずかに妨げますが、ベースラインのトレーニング データでは見られないものを含む、生成候補コードとそのファミリーのパフォーマンスを向上させます。
拡張モデルでは、ファミリー外のエラー率が低くなります。
GPT-3.5 は、プロンプトの説明によって ICD-10 コードを識別できますが、実際のデータではあまり機能しません。
評価者は、多様性、裏付けとなる情報、および物語に苦しみながらも、生成されたコンセプトの正しさに注目します。
考察と結論: GPT-3.5 単独では ICD-10 コーディングには適していません。
拡張は生成コード ファミリにプラスの影響を与えますが、主に既存の例を持つコードに利益をもたらします。
オーグメンテーションにより、ファミリー外のエラーが減少します。
GPT-3.5 によって生成された退院概要には、促された概念は正しく記載されていますが、物語の多様性と信頼性が欠けています。
それらは臨床実践には適していません。

要約(オリジナル)

Objective: To investigate GPT-3.5 in generating and coding medical documents with ICD-10 codes for data augmentation on low-resources labels. Materials and Methods: Employing GPT-3.5 we generated and coded 9,606 discharge summaries based on lists of ICD-10 code descriptions of patients with infrequent (generation) codes within the MIMIC-IV dataset. Combined with the baseline training set, this formed an augmented training set. Neural coding models were trained on baseline and augmented data and evaluated on a MIMIC-IV test set. We report micro- and macro-F1 scores on the full codeset, generation codes, and their families. Weak Hierarchical Confusion Matrices were employed to determine within-family and outside-of-family coding errors in the latter codesets. The coding performance of GPT-3.5 was evaluated both on prompt-guided self-generated data and real MIMIC-IV data. Clinical professionals evaluated the clinical acceptability of the generated documents. Results: Augmentation slightly hinders the overall performance of the models but improves performance for the generation candidate codes and their families, including one unseen in the baseline training data. Augmented models display lower out-of-family error rates. GPT-3.5 can identify ICD-10 codes by the prompted descriptions, but performs poorly on real data. Evaluators note the correctness of generated concepts while suffering in variety, supporting information, and narrative. Discussion and Conclusion: GPT-3.5 alone is unsuitable for ICD-10 coding. Augmentation positively affects generation code families but mainly benefits codes with existing examples. Augmentation reduces out-of-family errors. Discharge summaries generated by GPT-3.5 state prompted concepts correctly but lack variety, and authenticity in narratives. They are unsuitable for clinical practice.

arxiv情報

著者 Matúš Falis,Aryo Pradipta Gema,Hang Dong,Luke Daines,Siddharth Basetti,Michael Holder,Rose S Penfold,Alexandra Birch,Beatrice Alex
発行日 2024-01-24 15:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク