Aloe: A Family of Fine-tuned Open Healthcare LLMs

要約

ヘルスケアと医療における大規模言語モデル(LLM)の能力が進歩し続ける中、公共の利益を守ることができる競争力のあるオープンソースモデルの必要性が高まっている。競争力の高いオープンベースモデルの利用可能性が高まる中、事前学習を継続することの影響はますます不確実になっています。本研究では、現在のオープンモデルを改善する手段として、インストラクターチューニング、モデルマージ、アライメント、レッドチーミング、および高度な推論スキームの役割を探求する。そのために、スケール範囲内で高い競争力を持つオープンな医療LLMのセットであるAloeファミリーを紹介する。Aloeモデルは、合成Chain of Thought (CoT)を用いて改良された公開データソースを組み合わせた新しいカスタムデータセットを用いて、現在の最良のベースモデル(Mistral、LLaMA 3)を基に学習される。アロエのモデルはアライメント段階を経て、直接選好最適化を使用した最初の数少ない政策アライメントされたオープンヘルスケアLLMのひとつとなり、ヘルスケアLLMにおける倫理的パフォーマンスの新たな基準を設定します。モデルの評価は、様々な偏りや毒性のデータセット、レッドチームによる専門的な取り組み、ヘルスケアLLMに必要なリスク評価などへと拡大している。最後に、推論における現在のLLMの限界を探るために、ベンチマーク全体の性能を高めるためのいくつかの高度なプロンプトエンジニアリング戦略を研究し、この規模では前例のない、オープンなヘルスケア7B LLMの最先端の結果を得た。

要約(オリジナル)

As the capabilities of Large Language Models (LLMs) in healthcare and medicine continue to advance, there is a growing need for competitive open-source models that can safeguard public interest. With the increasing availability of highly competitive open base models, the impact of continued pre-training is increasingly uncertain. In this work, we explore the role of instruct tuning, model merging, alignment, red teaming and advanced inference schemes, as means to improve current open models. To that end, we introduce the Aloe family, a set of open medical LLMs highly competitive within its scale range. Aloe models are trained on the current best base models (Mistral, LLaMA 3), using a new custom dataset which combines public data sources improved with synthetic Chain of Thought (CoT). Aloe models undergo an alignment phase, becoming one of the first few policy-aligned open healthcare LLM using Direct Preference Optimization, setting a new standard for ethical performance in healthcare LLMs. Model evaluation expands to include various bias and toxicity datasets, a dedicated red teaming effort, and a much-needed risk assessment for healthcare LLMs. Finally, to explore the limits of current LLMs in inference, we study several advanced prompt engineering strategies to boost performance across benchmarks, yielding state-of-the-art results for open healthcare 7B LLMs, unprecedented at this scale.

arxiv情報

著者 Ashwin Kumar Gururajan,Enrique Lopez-Cuena,Jordi Bayarri-Planas,Adrian Tormos,Daniel Hinjos,Pablo Bernabeu-Perez,Anna Arias-Duart,Pablo Agustin Martin-Torres,Lucia Urcelay-Ganzabal,Marta Gonzalez-Mallo,Sergio Alvarez-Napagao,Eduard Ayguadé-Parra,Ulises Cortés Dario Garcia-Gasulla
発行日 2024-05-03 07:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク