MedAlpaca — An Open-Source Collection of Medical Conversational AI Models and Training Data

要約

タイトル – MedAlpaca – オープンソースの医療会話AIモデルとトレーニングデータのコレクション
要約 – OpenAIのGPTシリーズのような大規模言語モデルが進歩するにつれて、人工知能アプリケーションがますます多様な分野で現れています。医学では、これらの言語モデルは、医療のワークフロー、診断、患者ケア、教育を改善するための非常に有望な手段です。しかし、患者のプライバシーを守るためにオンプレミスで展開できるオープンソースモデルが急がれています。私たちの研究では、効果的な医療アプリケーションに合うように特別に作成された160,000以上のエントリーで構成される革新的なデータセットを紹介しています。公にアクセス可能な事前学習済みLLMにこれらのデータセットを微調整した場合の影響を調査し、その後、将来の医師が認定を受けるために受ける試験に関して、事前学習済みモデルのみに対して微調整モデルの性能を対比しています。

– 大規模言語モデルを用いた医療アプリケーションにおける患者プライバシーの保護の必要性
– 医療アプリケーションに適した160,000以上のエントリーで構成されるデータセットの開発
– 公にアクセス可能な事前学習済みLLMにデータセットを微調整した場合の影響の調査
– 将来の医師の認定試験に関して、事前学習済みモデルのみに対して微調整モデルの性能を対比

要約(オリジナル)

As large language models (LLMs) like OpenAI’s GPT series continue to make strides, we witness the emergence of artificial intelligence applications in an ever-expanding range of fields. In medicine, these LLMs hold considerable promise for improving medical workflows, diagnostics, patient care, and education. Yet, there is an urgent need for open-source models that can be deployed on-premises to safeguard patient privacy. In our work, we present an innovative dataset consisting of over 160,000 entries, specifically crafted to fine-tune LLMs for effective medical applications. We investigate the impact of fine-tuning these datasets on publicly accessible pre-trained LLMs, and subsequently, we juxtapose the performance of pre-trained-only models against the fine-tuned models concerning the examinations that future medical doctors must pass to achieve certification.

arxiv情報

著者 Tianyu Han,Lisa C. Adams,Jens-Michalis Papaioannou,Paul Grundmann,Tom Oberhauser,Alexander Löser,Daniel Truhn,Keno K. Bressem
発行日 2023-04-14 11:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク