Localising In-Domain Adaptation of Transformer-Based Biomedical Language Models

要約

デジタルヘルスケアの時代において、病院で毎日生成される膨大な量のテキスト情報は、必要不可欠であるにもかかわらず十分に活用されていない資産であり、タスク固有の微調整された生物医学言語表現モデルで活用でき、患者のケアと管理を改善できます。
このような特殊なドメインの場合、これまでの研究では、広範囲のチェックポイントに由来するモデルの微調整が、大規模なドメイン内リソースよりも追加のトレーニング ラウンドに大きな利益をもたらすことが示されています。
ただし、イタリア語などのリソースが少ない言語では、これらのリソースが利用できないことが多く、地元の医療機関がドメイン内適応を採用することができません。
このギャップを減らすために、私たちの研究では、イタリア語を具体的なユースケースとして取り上げ、英語以外の言語で生物医学言語モデルを導出する 2 つの利用可能なアプローチを調査しています。 1 つは、英語リソースのニューラル機械翻訳に基づいており、質よりも量を優先します。
もう 1 つは、イタリア語でネイティブに書かれた高品位で範囲が狭いコーパスに基づいており、量よりも質が優先されます。
私たちの研究は、生物医学への適応にはデータの質よりもデータ量の方が厳しい制約であることを示していますが、比較的サイズが制限されたコーパスを扱う場合でも、高品質のデータを連結することでモデルのパフォーマンスを向上させることができます。
私たちの調査から公開されたモデルは、イタリアの病院や学術界にとって重要な研究の機会を開く可能性を秘めています。
最後に、この研究から得られた一連の教訓は、他のリソースの少ない言語やさまざまなドメイン設定に一般化できる生物医学言語モデルを構築するためのソリューションに向けた貴重な洞察を構成します。

要約(オリジナル)

In the era of digital healthcare, the huge volumes of textual information generated every day in hospitals constitute an essential but underused asset that could be exploited with task-specific, fine-tuned biomedical language representation models, improving patient care and management. For such specialized domains, previous research has shown that fine-tuning models stemming from broad-coverage checkpoints can largely benefit additional training rounds over large-scale in-domain resources. However, these resources are often unreachable for less-resourced languages like Italian, preventing local medical institutions to employ in-domain adaptation. In order to reduce this gap, our work investigates two accessible approaches to derive biomedical language models in languages other than English, taking Italian as a concrete use-case: one based on neural machine translation of English resources, favoring quantity over quality; the other based on a high-grade, narrow-scoped corpus natively written in Italian, thus preferring quality over quantity. Our study shows that data quantity is a harder constraint than data quality for biomedical adaptation, but the concatenation of high-quality data can improve model performance even when dealing with relatively size-limited corpora. The models published from our investigations have the potential to unlock important research opportunities for Italian hospitals and academia. Finally, the set of lessons learned from the study constitutes valuable insights towards a solution to build biomedical language models that are generalizable to other less-resourced languages and different domain settings.

arxiv情報

著者 Tommaso Mario Buonocore,Claudio Crema,Alberto Redolfi,Riccardo Bellazzi,Enea Parimbelli
発行日 2023-06-28 08:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク