Identifying and Extracting Rare Disease Phenotypes with Large Language Models

要約

希少疾患 (RD) は総称して一般的であり、世界中で 3 億人が罹患しています。
正確な表現型は診断と治療に情報を提供するために重要ですが、RD 表現型は非構造化テキストに埋め込まれていることが多く、手動で抽出するには時間がかかります。
自然言語処理 (NLP) モデルは固有表現認識 (NER) を実行して抽出を自動化できますが、大きなボトルネックは、モデル トレーニング用の大規模な注釈付きコーパスの開発です。
最近、プロンプト学習が NLP パラダイムとして登場し、ラベル付きサンプルをまったく使用せず (ゼロショット)、または少数のラベル付きサンプル (少数ショット) を使用して、より一般化可能な結果を​​導き出すことができます。
複雑な人間のプロンプトに従い、高品質の応答を生成できる革新的な大規模言語モデルである ChatGPT への関心が高まっているにもかかわらず、ゼロショット設定および少数ショット設定での RD の NER パフォーマンスを研究した人は誰もいません。
この目的を達成するために、私たちは RD 表現型の抽出を目的とした新しいプロンプトを設計し、私たちの知る限り、これらの設定で ChatGPT のパフォーマンスを評価するためのベンチマークを確立したのは初めてです。
私たちはそのパフォーマンスを従来の微調整アプローチと比較し、詳細なエラー分析を実施しました。
全体として、BioClinicalBERT を微調整すると、ChatGPT (ゼロショット設定と少数ショット設定でそれぞれ F1 0.472 と 0.591) よりも高いパフォーマンス (F1 0.689) が得られました。
それにもかかわらず、ChatGPT は、ワンショット設定 (F1 0.776 および 0.725) で、特定のエンティティ (つまり、稀な疾患や兆候) に対して同等以上の精度を達成しました。
これは、適切なプロンプト エンジニアリングを使用すれば、ChatGPT が 1 つのラベル付きサンプルで特定のエンティティ タイプの微調整された言語モデルと同等またはそれを上回るパフォーマンスを発揮する可能性があることを示唆しています。
大規模な言語モデルの普及により、RD の診断と治療をサポートする機会が提供される可能性がありますが、研究者や臨床医はモデルの出力を批判的に評価し、その限界について十分な情報を得る必要があります。

要約(オリジナル)

Rare diseases (RDs) are collectively common and affect 300 million people worldwide. Accurate phenotyping is critical for informing diagnosis and treatment, but RD phenotypes are often embedded in unstructured text and time-consuming to extract manually. While natural language processing (NLP) models can perform named entity recognition (NER) to automate extraction, a major bottleneck is the development of a large, annotated corpus for model training. Recently, prompt learning emerged as an NLP paradigm that can lead to more generalizable results without any (zero-shot) or few labeled samples (few-shot). Despite growing interest in ChatGPT, a revolutionary large language model capable of following complex human prompts and generating high-quality responses, none have studied its NER performance for RDs in the zero- and few-shot settings. To this end, we engineered novel prompts aimed at extracting RD phenotypes and, to the best of our knowledge, are the first the establish a benchmark for evaluating ChatGPT’s performance in these settings. We compared its performance to the traditional fine-tuning approach and conducted an in-depth error analysis. Overall, fine-tuning BioClinicalBERT resulted in higher performance (F1 of 0.689) than ChatGPT (F1 of 0.472 and 0.591 in the zero- and few-shot settings, respectively). Despite this, ChatGPT achieved similar or higher accuracy for certain entities (i.e., rare diseases and signs) in the one-shot setting (F1 of 0.776 and 0.725). This suggests that with appropriate prompt engineering, ChatGPT has the potential to match or outperform fine-tuned language models for certain entity types with just one labeled sample. While the proliferation of large language models may provide opportunities for supporting RD diagnosis and treatment, researchers and clinicians should critically evaluate model outputs and be well-informed of their limitations.

arxiv情報

著者 Cathy Shyr,Yan Hu,Paul A. Harris,Hua Xu
発行日 2023-06-22 03:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク