A Survey of Spanish Clinical Language Models

要約

本サーベイでは、スペイン語の臨床領域のタスクを解決するためのエンコーダ言語モデルに焦点を当てる。主に臨床タスクに焦点を当てた17のコーパスの貢献をレビューし、最も関連性の高いスペイン語言語モデルとスペイン語臨床言語モデルをリストアップする。利用可能なコーパスのサブセットに対してベンチマークを行うことで、これらのモデルの徹底的な比較を行い、最もパフォーマンスの高いものを見つける。テストされたすべてのコーパスと最良のモデルは、アクセス可能な方法で公開されています。そのため、独立したチームが結果を再現したり、将来新しいスペイン語臨床言語モデルが作成されたときに挑戦したりすることができます。

要約(オリジナル)

This survey focuses in encoder Language Models for solving tasks in the clinical domain in the Spanish language. We review the contributions of 17 corpora focused mainly in clinical tasks, then list the most relevant Spanish Language Models and Spanish Clinical Language models. We perform a thorough comparison of these models by benchmarking them over a curated subset of the available corpora, in order to find the best-performing ones; in total more than 3000 models were fine-tuned for this study. All the tested corpora and the best models are made publically available in an accessible way, so that the results can be reproduced by independent teams or challenged in the future when new Spanish Clinical Language models are created.

arxiv情報

著者 Guillem García Subies,Álvaro Barbero Jiménez,Paloma Martínez Fernández
発行日 2023-08-04 08:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク