Using LLMs to label medical papers according to the CIViC evidence model

要約

本稿では、CIViC Evidenceという配列分類問題を医療NLPの分野に導入する。CIViC Evidenceは、ゲノム変異、癌種、治療アプローチの様々な組み合わせを検討した科学論文の抄録に臨床エビデンスのラベルを割り当てる多ラベル分類問題を示す。我々は、異なる言語モデルを用いてCIViC Evidenceにアプローチする:BERTとRoBERTaの事前訓練されたチェックポイントをCIViC Evidenceデータセット上で微調整し、ドメイン固有のテキストで事前訓練された同じアーキテクチャのモデルでその性能に挑戦する。この文脈において、BiomedBERTとBioLinkBERTは、CIViC EvidenceにおいてBERTを上回ることができる(クラスサポート重み付けF1スコアの絶対値で+0.8%と+0.9%の改善)。すべての変換器ベースのモデルは、bigram tf-idfスコアで訓練されたロジスティック回帰と比較すると、明確な性能優位性を示す(+1.5~2.7%のF1スコアの改善)。我々は、前述のBERTライクなモデルをOpenAIのGPT-4と(我々のオリジナルテストデータセットの小さなサブセット上の)数ショット設定で比較し、プロンプトエンジニアリングやファインチューニングを追加しなければ、GPT-4は我々の6つのファインチューニングされたモデルよりもCIViC Evidence上で性能が悪いことを実証する(最高のファインチューニングされたモデルの71.8%に対して66.1%の重み付けF1スコア)。しかし,性能は,bigram tf-idfスコアで訓練されたロジスティック回帰モデルのベンチマーク(67.7%の重み付きF1スコア)に適度に近づく.

要約(オリジナル)

We introduce the sequence classification problem CIViC Evidence to the field of medical NLP. CIViC Evidence denotes the multi-label classification problem of assigning labels of clinical evidence to abstracts of scientific papers which have examined various combinations of genomic variants, cancer types, and treatment approaches. We approach CIViC Evidence using different language models: We fine-tune pretrained checkpoints of BERT and RoBERTa on the CIViC Evidence dataset and challenge their performance with models of the same architecture which have been pretrained on domain-specific text. In this context, we find that BiomedBERT and BioLinkBERT can outperform BERT on CIViC Evidence (+0.8% and +0.9% absolute improvement in class-support weighted F1 score). All transformer-based models show a clear performance edge when compared to a logistic regression trained on bigram tf-idf scores (+1.5 – 2.7% improved F1 score). We compare the aforementioned BERT-like models to OpenAI’s GPT-4 in a few-shot setting (on a small subset of our original test dataset), demonstrating that, without additional prompt-engineering or fine-tuning, GPT-4 performs worse on CIViC Evidence than our six fine-tuned models (66.1% weighted F1 score compared to 71.8% for the best fine-tuned model). However, performance gets reasonably close to the benchmark of a logistic regression model trained on bigram tf-idf scores (67.7% weighted F1 score).

arxiv情報

著者 Markus Hisch,Xing David Wang
発行日 2024-07-05 12:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク