Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain

要約

医療アプリケーション開発のための言語テクノロジーの研究は、現在、自然言語の理解と生成においてホットなトピックです。
したがって、最近では、多くの大規模言語モデル (LLM) が医療分野に適応され、人間と AI の対話を仲介するツールとして使用できるようになりました。
これらの LLM は、自動化された医療テキストのベンチマークで競争力のあるパフォーマンスを示しますが、単一言語 (主に英語) に焦点を当てて事前トレーニングされ、評価されています。
これは、テキストツーテキスト モデルに特に当てはまります。通常、ドメイン固有の大量の事前トレーニング データが必要ですが、多くの言語では簡単にアクセスできないことがよくあります。
この論文では、私たちの知る限り、英語、フランス語、イタリア語、スペイン語の 4 つの言語で医療分野の最大の多言語コーパスを編集することで、これらの欠点に対処します。
この新しいコーパスは、医療分野初のオープンソースのテキスト間多言語モデルである Medical mT5 のトレーニングに使用されています。
さらに、この分野での多言語研究を促進することを目的として、4 言語すべてに対する 2 つの新しい評価ベンチマークを提示します。
総合的な評価により、Medical mT5 は、スペイン語、フランス語、イタリア語のベンチマークでは、エンコーダーと同様のサイズのテキストツーテキスト モデルの両方を上回り、英語では現在の最先端の LLM と競合できることがわかりました。

要約(オリジナル)

Research on language technology for the development of medical applications is currently a hot topic in Natural Language Understanding and Generation. Thus, a number of large language models (LLMs) have recently been adapted to the medical domain, so that they can be used as a tool for mediating in human-AI interaction. While these LLMs display competitive performance on automated medical texts benchmarks, they have been pre-trained and evaluated with a focus on a single language (English mostly). This is particularly true of text-to-text models, which typically require large amounts of domain-specific pre-training data, often not easily accessible for many languages. In this paper, we address these shortcomings by compiling, to the best of our knowledge, the largest multilingual corpus for the medical domain in four languages, namely English, French, Italian and Spanish. This new corpus has been used to train Medical mT5, the first open-source text-to-text multilingual model for the medical domain. Additionally, we present two new evaluation benchmarks for all four languages with the aim of facilitating multilingual research in this domain. A comprehensive evaluation shows that Medical mT5 outperforms both encoders and similarly sized text-to-text models for the Spanish, French, and Italian benchmarks, while being competitive with current state-of-the-art LLMs in English.

arxiv情報

著者 Iker García-Ferrero,Rodrigo Agerri,Aitziber Atutxa Salazar,Elena Cabrio,Iker de la Iglesia,Alberto Lavelli,Bernardo Magnini,Benjamin Molinet,Johana Ramirez-Romero,German Rigau,Jose Maria Villa-Gonzalez,Serena Villata,Andrea Zaninello
発行日 2024-04-11 10:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク