Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks

要約

ChatGPT を強化する OpenAI の GPT-4 や Anthropic の Claude 3 Opus などの商用大規模言語モデル (LLM) は、さまざまなドメインにわたる自然言語処理 (NLP) ベンチマークを支配してきました。
Mixtral 8x7B や Llama 3 など、競合する新しいオープンソースの代替製品が登場し、多くの場合、より高いスループットを提供し、使用コストが低くなりながら、その差を縮めつつあるようです。
オープンソース LLM は自己ホスト型にすることもできるため、機密データをサードパーティが処理する必要がない企業や臨床のユースケースにとって興味深いものになります。
私たちは、検索拡張世代 (RAG) 設定である第 12 回 BioASQ チャレンジに参加し、現在の GPT モデルである Claude 3 Opus、GPT-3.5-turbo、および Mixtral 8x7b のパフォーマンスをインコンテキスト学習 (ゼロショット、少数) で調査しました。
-shot) と QLoRa の微調整。
また、Wikipedia から関連する知識を LLM のコンテキスト ウィンドウに追加すると、パフォーマンスがどのように向上するかについても調査しました。
Mixtral 8x7b は、微調整の有無にかかわらず、10 ショット設定では競争力がありましたが、ゼロショット設定では使用可能な結果を​​生み出すことができませんでした。
QLoRa の微調整と Wikipedia のコンテキストは、測定可能なパフォーマンスの向上にはつながりませんでした。
私たちの結果は、RAG セットアップにおける商用モデルとオープンソース モデル間のパフォーマンスのギャップは主にゼロショット設定に存在し、ドメイン固有のユースケースの少数ショットの例を収集するだけで埋めることができることを示しています。
これらの実験を再実行するために必要なコードは、GitHub から入手できます。

要約(オリジナル)

Commercial large language models (LLMs), like OpenAI’s GPT-4 powering ChatGPT and Anthropic’s Claude 3 Opus, have dominated natural language processing (NLP) benchmarks across different domains. New competing Open-Source alternatives like Mixtral 8x7B or Llama 3 have emerged and seem to be closing the gap while often offering higher throughput and being less costly to use. Open-Source LLMs can also be self-hosted, which makes them interesting for enterprise and clinical use cases where sensitive data should not be processed by third parties. We participated in the 12th BioASQ challenge, which is a retrieval augmented generation (RAG) setting, and explored the performance of current GPT models Claude 3 Opus, GPT-3.5-turbo and Mixtral 8x7b with in-context learning (zero-shot, few-shot) and QLoRa fine-tuning. We also explored how additional relevant knowledge from Wikipedia added to the context-window of the LLM might improve their performance. Mixtral 8x7b was competitive in the 10-shot setting, both with and without fine-tuning, but failed to produce usable results in the zero-shot setting. QLoRa fine-tuning and Wikipedia context did not lead to measurable performance gains. Our results indicate that the performance gap between commercial and open-source models in RAG setups exists mainly in the zero-shot setting and can be closed by simply collecting few-shot examples for domain-specific use cases. The code needed to rerun these experiments is available through GitHub.

arxiv情報

著者 Samy Ateia,Udo Kruschwitz
発行日 2024-07-18 13:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク