SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH)

要約

構造化されていない医療ノートからの健康の社会的決定要因 (SDoH) の抽出は、労働集約的な注釈に大きく依存していますが、注釈は通常タスク固有のものであるため、再利用性が妨げられ、共有が制限されます。
この研究では、対照的な例と簡潔な指示を活用して、広範な医療注釈やコストのかかる人間の介入に依存せずに SDoH を抽出するための、シンプルで効果的な少数ショットの大規模言語モデル (LLM) 手法である SDoH-GPT を導入しました。
時間とコストがそれぞれ 10 倍と 20 倍削減され、コーエンのカッパによって測定されるヒューマン アノテーターとの優れた一貫性 (最大 0.92) が達成されました。
SDoH-GPT と XGBoost の革新的な組み合わせは、両方の長所を活用し、0.90+ AUROC スコアを一貫して維持しながら、高い精度と計算効率を保証します。
3 つの異なるデータセットにわたるテストにより、その堅牢性と精度が確認されました。
この研究は、LLM を活用して医療ノートの分類に革命を起こす可能性を強調し、時間とコストを大幅に削減しながら高精度の分類を実現する LLM の能力を実証しています。

要約(オリジナル)

Extracting social determinants of health (SDoH) from unstructured medical notes depends heavily on labor-intensive annotations, which are typically task-specific, hampering reusability and limiting sharing. In this study we introduced SDoH-GPT, a simple and effective few-shot Large Language Model (LLM) method leveraging contrastive examples and concise instructions to extract SDoH without relying on extensive medical annotations or costly human intervention. It achieved tenfold and twentyfold reductions in time and cost respectively, and superior consistency with human annotators measured by Cohen’s kappa of up to 0.92. The innovative combination of SDoH-GPT and XGBoost leverages the strengths of both, ensuring high accuracy and computational efficiency while consistently maintaining 0.90+ AUROC scores. Testing across three distinct datasets has confirmed its robustness and accuracy. This study highlights the potential of leveraging LLMs to revolutionize medical note classification, demonstrating their capability to achieve highly accurate classifications with significantly reduced time and cost.

arxiv情報

著者 Bernardo Consoli,Xizhi Wu,Song Wang,Xinyu Zhao,Yanshan Wang,Justin Rousseau,Tom Hartvigsen,Li Shen,Huanmei Wu,Yifan Peng,Qi Long,Tianlong Chen,Ying Ding
発行日 2024-07-24 09:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク