Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings

要約

Transformer アーキテクチャの出現以来、言語モデルの開発は、その有望な可能性に牽引されて増加してきました。
ただし、これらのモデルを運用環境にリリースするには、特に医療などの機密性の高い領域での動作を適切に理解する必要があります。
この必要性にもかかわらず、医学文献には、計算能力や限られた予算の点でリソースに制約のある環境で特に価値のある事前トレーニング済み言語モデルの技術的評価がまだ不足しています。
このギャップに対処するために、私たちは医療分野における言語モデルの包括的な調査を提供します。
さらに、分類とテキスト生成タスクに焦点を当てて、徹底的な評価のためにこれらのモデルのサブセットを選択しました。
私たちのサブセットには、1 億 1,000 万から 130 億のパラメーターに及ぶ 53 のモデルが含まれており、Transformer ベースのモデルの 3 つのファミリーと多様な知識領域にまたがっています。
この研究では、モデルのトレーニングや微調整の代わりにゼロショット プロンプトを組み合わせたテキスト分類の一連のアプローチを採用しています。これは、言語モデルの多くのユーザーが直面している限られたリソースの設定によく似ています。
心強いことに、私たちの調査結果はさまざまなタスクやデータセットにわたって顕著なパフォーマンスを示しており、特定のモデルには、専門分野がなくても医学知識を含む潜在的な可能性があることを強調しています。
したがって、私たちの研究では、医療現場、特にリソースに制約のある環境におけるモデルアプリケーションのさらなる探求を提唱しています。
コードは https://github.com/anpoc/Language-models-in-medicine で入手できます。

要約(オリジナル)

Since the emergence of the Transformer architecture, language model development has increased, driven by their promising potential. However, releasing these models into production requires properly understanding their behavior, particularly in sensitive domains such as medicine. Despite this need, the medical literature still lacks technical assessments of pre-trained language models, which are especially valuable in resource-constrained settings in terms of computational power or limited budget. To address this gap, we provide a comprehensive survey of language models in the medical domain. In addition, we selected a subset of these models for thorough evaluation, focusing on classification and text generation tasks. Our subset encompasses 53 models, ranging from 110 million to 13 billion parameters, spanning the three families of Transformer-based models and from diverse knowledge domains. This study employs a series of approaches for text classification together with zero-shot prompting instead of model training or fine-tuning, which closely resembles the limited resource setting in which many users of language models find themselves. Encouragingly, our findings reveal remarkable performance across various tasks and datasets, underscoring the latent potential of certain models to contain medical knowledge, even without domain specialization. Consequently, our study advocates for further exploration of model applications in medical contexts, particularly in resource-constrained settings. The code is available on https://github.com/anpoc/Language-models-in-medicine.

arxiv情報

著者 Andrea Posada,Daniel Rueckert,Felix Meissen,Philip Müller
発行日 2024-06-24 12:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク