High-Throughput Phenotyping of Clinical Text Using Large Language Models

要約

ハイスループットな表現型解析は、標準化されたオントロジー概念への患者徴候のマッピングを自動化し、精密医療に不可欠である。本研究では、大規模言語モデルを用いて、Online Mendelian Inheritance in Man (OMIM)データベースの臨床サマリーのフェノタイピングの自動化を評価する。表現型データが豊富なため、これらの要約は医師のメモの代用となり得る。GPT-4とGPT-3.5-Turboの性能比較を行った。その結果、GPT-4は、符号の識別、分類、正規化においてGPT-3.5-Turboを上回り、手動アノテーターとの評価者間一致に匹敵する一致を達成した。符号の正規化には若干の限界があるものの、GPT-4の広範な事前学習により、手作業で注釈を付けた学習データの必要性を排除しながら、複数の表現型分類タスクにわたって高い性能と汎化性を実現している。大規模言語モデルは、臨床テキストのハイスループットな表現型分類を自動化するための主要な手法となることが期待される。

要約(オリジナル)

High-throughput phenotyping automates the mapping of patient signs to standardized ontology concepts and is essential for precision medicine. This study evaluates the automation of phenotyping of clinical summaries from the Online Mendelian Inheritance in Man (OMIM) database using large language models. Due to their rich phenotype data, these summaries can be surrogates for physician notes. We conduct a performance comparison of GPT-4 and GPT-3.5-Turbo. Our results indicate that GPT-4 surpasses GPT-3.5-Turbo in identifying, categorizing, and normalizing signs, achieving concordance with manual annotators comparable to inter-rater agreement. Despite some limitations in sign normalization, the extensive pre-training of GPT-4 results in high performance and generalizability across several phenotyping tasks while obviating the need for manually annotated training data. Large language models are expected to be the dominant method for automating high-throughput phenotyping of clinical text.

arxiv情報

著者 Daniel B. Hier,S. Ilyas Munzir,Anne Stahlfeld,Tayo Obafemi-Ajayi,Michael D. Carrithers
発行日 2024-08-02 12:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2 パーマリンク