MedMine: Examining Pre-trained Language Models on Medication Mining

要約

臨床テキストおよび生物医学テキストからの自動医薬品マイニングは、医療アプリケーションへの実際の影響と、強力な言語モデル (LM) の最近の開発により、人気のトピックとなっています。
しかし、全自動抽出モデルは、より良い効果を得るために臨床現場に直接導入できるようにするために、まだ克服すべき障害に直面しています。
このような障害には、さまざまな種類のエンティティや臨床事象に対する不均衡なパフォーマンスが含まれます。
この研究では、単言語モデル Med7 や多言語大規模言語モデル (LLM) XLM-RoBERTa などの微調整を通じて、このようなタスクに関する現在の最先端の事前トレーニング済み言語モデル (PLM) を検証します。
n2c2-2018 チャレンジの過去の医薬品マイニング共有タスク データ セットを使用して、それらの長所と短所を比較します。
私たちは、これらの微調整実験から得られた発見を報告します。これにより、出力を組み合わせたり、そのようなモデルをマージしたり、アンサンブル学習やデータ拡張によって全体の精度を向上させたりする方法など、問題に対処するための将来の研究が容易になります。
MedMine は M3 イニシアチブ \url{https://github.com/HECTA-UoM/M3} の一部です

要約(オリジナル)

Automatic medication mining from clinical and biomedical text has become a popular topic due to its real impact on healthcare applications and the recent development of powerful language models (LMs). However, fully-automatic extraction models still face obstacles to be overcome such that they can be deployed directly into clinical practice for better impacts. Such obstacles include their imbalanced performances on different entity types and clinical events. In this work, we examine current state-of-the-art pre-trained language models (PLMs) on such tasks, via fine-tuning including the monolingual model Med7 and multilingual large language model (LLM) XLM-RoBERTa. We compare their advantages and drawbacks using historical medication mining shared task data sets from n2c2-2018 challenges. We report the findings we get from these fine-tuning experiments such that they can facilitate future research on addressing them, for instance, how to combine their outputs, merge such models, or improve their overall accuracy by ensemble learning and data augmentation. MedMine is part of the M3 Initiative \url{https://github.com/HECTA-UoM/M3}

arxiv情報

著者 Haifa Alrdahi,Lifeng Han,Hendrik Šuvalov,Goran Nenadic
発行日 2023-08-08 15:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク