Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting

要約

臨床文書からの医療情報の自動抽出には、必要な臨床専門知識にかかるコストの高さ、モデル予測の解釈可能性の制限、計算リソースの制限、プライバシー規制など、いくつかの課題が生じます。
ドメイン適応およびプロンプト手法の最近の進歩により、十分に確立された解釈可能性手法に適した、軽量のマスク言語モデルを使用した最小限のトレーニング データで有望な結果が示されました。
我々は初めて、ドイツの医師の手紙に対してマルチクラスセクション分類を実行することにより、低リソース環境におけるこれらの方法の体系的な評価を提示しました。
私たちは、小規模なトレーニング データ セットの品質を検証し、モデル予測の解釈可能性を確保するために、Shapley 値に裏付けられた広範なクラスごとの評価を実施します。
わずか 20 回のショットでプロンプトが表示された、軽量でドメインに適応した事前トレーニング済みモデルが、従来の分類モデルより 30.5% の精度で優れていることを実証します。
私たちの結果は、低リソースで作業する臨床情報抽出プロジェクトのプロセス指向のガイドラインとして役立ちます。

要約(オリジナル)

Automatic extraction of medical information from clinical documents poses several challenges: high costs of required clinical expertise, limited interpretability of model predictions, restricted computational resources and privacy regulations. Recent advances in domain-adaptation and prompting methods showed promising results with minimal training data using lightweight masked language models, which are suited for well-established interpretability methods. We are first to present a systematic evaluation of these methods in a low-resource setting, by performing multi-class section classification on German doctor’s letters. We conduct extensive class-wise evaluations supported by Shapley values, to validate the quality of our small training data set and to ensure the interpretability of model predictions. We demonstrate that a lightweight, domain-adapted pretrained model, prompted with just 20 shots, outperforms a traditional classification model by 30.5% accuracy. Our results serve as a process-oriented guideline for clinical information extraction projects working with low-resource.

arxiv情報

著者 Phillip Richter-Pechanski,Philipp Wiesenbach,Dominic M. Schwab,Christina Kiriakou,Nicolas Geis,Christoph Dieterich,Anette Frank
発行日 2024-08-13 07:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク