要約
オランダのプライマリケア医のフリーテキストの患者医療ノートを使用して、肺がんの早期予測の問題について、コンテキスト化された単語表現に基づくさまざまな自然言語処理 (NLP) アプローチを調査します。
肺がんはプライマリケアでの有病率が低いため、非常に不均衡なクラスの下での分類の問題にも対処します。
具体的には、大規模な Transformer ベースの事前トレーニング済み言語モデル (PLM) を使用して調査します。
-チューニング;
2) 単純な静的単語埋め込みモデル (WEM) は、非常に不均衡な設定で PLM と比較してより堅牢になるかどうか。
3) 少数の患者からのメモで訓練されたモデルがどのように機能するか。
1) ソフト プロンプト チューニングは、標準モデルの微調整に代わる効率的な方法です。
2) PLM は、分類問題がより不均衡になるにつれて、より単純な静的単語埋め込みモデルと比較して、より良い識別を示しますが、より悪いキャリブレーションを示します。
3) 少数の患者のトレーニング モデルが混在し、PLM と WEM の間に明確な違いがない場合の結果。
すべてのコードは、\url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/} でオープン ソースで利用できます。
要約(オリジナル)
We investigate different natural language processing (NLP) approaches based on contextualised word representations for the problem of early prediction of lung cancer using free-text patient medical notes of Dutch primary care physicians. Because lung cancer has a low prevalence in primary care, we also address the problem of classification under highly imbalanced classes. Specifically, we use large Transformer-based pretrained language models (PLMs) and investigate: 1) how \textit{soft prompt-tuning} — an NLP technique used to adapt PLMs using small amounts of training data — compares to standard model fine-tuning; 2) whether simpler static word embedding models (WEMs) can be more robust compared to PLMs in highly imbalanced settings; and 3) how models fare when trained on notes from a small number of patients. We find that 1) soft-prompt tuning is an efficient alternative to standard model fine-tuning; 2) PLMs show better discrimination but worse calibration compared to simpler static word embedding models as the classification problem becomes more imbalanced; and 3) results when training models on small number of patients are mixed and show no clear differences between PLMs and WEMs. All our code is available open source in \url{https://bitbucket.org/aumc-kik/prompt_tuning_cancer_prediction/}.
arxiv情報
著者 | Auke Elfrink,Iacopo Vagliano,Ameen Abu-Hanna,Iacer Calixto |
発行日 | 2023-03-28 09:36:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google