Domain-Specific Pretraining of Language Models: A Comparative Study in the Medical Field

要約

LLM が単一ドメイン内の特定のタスクに使用されるケースは数多くあります。
これらには通常、一般的ではなく、より専門分野に特化した知識が必要です。
GPT-4 や Claude-3-opus などの高機能で汎用的な最先端の言語モデルは、多くの場合、このようなタスクに使用できますが、それらは非常に大きく、たとえ独自のものでなくても、ローカルで実行することはできません。

これは、機密データを扱う場合に問題になる可能性があります。
このペーパーでは、特殊な言語モデルの一般的な事前トレーニングよりも効率的な方法である可能性があるドメイン固有および混合ドメインの事前トレーニングに焦点を当てます。
特に医療分野におけるドメイン固有の事前トレーニングに関連する研究を検討し、特殊な言語モデルのベンチマーク結果を汎用言語モデルと比較します。

要約(オリジナル)

There are many cases where LLMs are used for specific tasks in a single domain. These usually require less general, but more domain-specific knowledge. Highly capable, general-purpose state-of-the-art language models like GPT-4 or Claude-3-opus can often be used for such tasks, but they are very large and cannot be run locally, even if they were not proprietary. This can be a problem when working with sensitive data. This paper focuses on domain-specific and mixed-domain pretraining as potentially more efficient methods than general pretraining for specialized language models. We will take a look at work related to domain-specific pretraining, specifically in the medical area, and compare benchmark results of specialized language models to general-purpose language models.

arxiv情報

著者 Tobias Kerner
発行日 2024-07-19 07:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6 パーマリンク