Zero-shot Clinical Entity Recognition using ChatGPT

要約

この研究では、OpenAI によって開発された大規模な言語モデルである ChatGPT の可能性を、2010 年の i2b2 チャレンジで定義された臨床固有表現認識タスクに対して、2 つの異なるプロンプト戦略を使用したゼロショット設定で調査しました。
同様のゼロ ショット設定での GPT-3 と、MTSamples からの一連の合成臨床ノートを使用して微調整された BioClinicalBERT モデルとのパフォーマンスを比較しました。
私たちの調査結果は、ChatGPT がゼロ ショット設定で GPT-3 よりも優れていることを明らかにしました。F1 スコアは、完全一致とリラックス一致でそれぞれ 0.418 (vs.0.250) と 0.620 (vs. 0.480) でした。
さらに、プロンプトは ChatGPT のパフォーマンスに大きく影響し、2 つの異なるプロンプト戦略でリラックス マッチング F1 スコアは 0.628 対 0.541 でした。
ChatGPT のパフォーマンスは、教師あり BioClinicalBERT モデルのパフォーマンスよりもまだ低かったが (つまり、0.628 対 0.870 のリラックス マッチング F1 スコア)、私たちの研究は、ゼロ ショット設定での臨床 NER タスクに対する ChatGPT の大きな可能性を示しています。
注釈を必要としないため、より魅力的です。

要約(オリジナル)

In this study, we investigated the potential of ChatGPT, a large language model developed by OpenAI, for the clinical named entity recognition task defined in the 2010 i2b2 challenge, in a zero-shot setting with two different prompt strategies. We compared its performance with GPT-3 in a similar zero-shot setting, as well as a fine-tuned BioClinicalBERT model using a set of synthetic clinical notes from MTSamples. Our findings revealed that ChatGPT outperformed GPT-3 in the zero-shot setting, with F1 scores of 0.418 (vs.0.250) and 0.620 (vs. 0.480) for exact- and relaxed-matching, respectively. Moreover, prompts affected ChatGPT’s performance greatly, with relaxed-matching F1 scores of 0.628 vs.0.541 for two different prompt strategies. Although ChatGPT’s performance was still lower than that of the supervised BioClinicalBERT model (i.e., relaxed-matching F1 scores of 0.628 vs. 0.870), our study demonstrates the great potential of ChatGPT for clinical NER tasks in a zero-shot setting, which is much more appealing as it does not require any annotation.

arxiv情報

著者 Yan Hu,Iqra Ameer,Xu Zuo,Xueqing Peng,Yujia Zhou,Zehan Li,Yiming Li,Jianfu Li,Xiaoqian Jiang,Hua Xu
発行日 2023-03-29 02:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク