Natural Language Processing Methods to Identify Oncology Patients at High Risk for Acute Care with Clinical Notes

要約

臨床記録は健康記録の重要な構成要素です。
この論文では、自然言語処理 (NLP) を使用して、化学療法が開始された腫瘍患者の急性期治療 (ACU) のリスクを特定する方法を評価します。
構造化された健康データ (SHD) を使用したリスク予測は現在標準ですが、フリーテキスト形式を使用した予測は複雑です。
このホワイト ペーパーでは、SHD の代わりに ACU を予測するためのフリーテキスト ノートの使用について説明します。
ディープ ラーニング モデルは、手動で設計された言語機能と比較されました。
結果は、SHD モデルが NLP モデルよりもわずかに優れていることを示しています。
SHD を使用した l1 ペナルティ付きロジスティック回帰は C 統計値 0.748 (95%-CI: 0.735, 0.762) を達成し、言語機能を備えた同じモデルは 0.730 (95%-CI: 0.717, 0.745) を達成し、変換器ベース
モデルは 0.702 を達成しました (95%-CI: 0.688、0.717)。
このホワイト ペーパーでは、言語モデルを臨床応用にどのように使用できるかを示し、フリーテキスト データのみを使用しても、さまざまな患者グループでリスク バイアスがどのように異なるかを強調しています。

要約(オリジナル)

Clinical notes are an essential component of a health record. This paper evaluates how natural language processing (NLP) can be used to identify the risk of acute care use (ACU) in oncology patients, once chemotherapy starts. Risk prediction using structured health data (SHD) is now standard, but predictions using free-text formats are complex. This paper explores the use of free-text notes for the prediction of ACU instead of SHD. Deep Learning models were compared to manually engineered language features. Results show that SHD models minimally outperform NLP models; an l1-penalised logistic regression with SHD achieved a C-statistic of 0.748 (95%-CI: 0.735, 0.762), while the same model with language features achieved 0.730 (95%-CI: 0.717, 0.745) and a transformer-based model achieved 0.702 (95%-CI: 0.688, 0.717). This paper shows how language models can be used in clinical applications and underlines how risk bias is different for diverse patient groups, even using only free-text data.

arxiv情報

著者 Claudio Fanconi,Marieke van Buchem,Tina Hernandez-Boussard
発行日 2023-03-16 16:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク