Is ChatGPT a Biomedical Expert? — Exploring the Zero-Shot Performance of Current GPT Models in Biomedical Tasks

要約

2023 BioASQ チャレンジのタスクに対する商用大規模言語モデル (LLM) GPT-3.5-Turbo および GPT-4 のパフォーマンスを評価しました。
応答生成に焦点を当てたタスク 11b フェーズ B では、両方のモデルが主要なシステムと競合する能力を実証しました。
注目すべきことに、彼らは関連するスニペットに基づいた単純なゼロショット学習でこれを達成しました。
関連するスニペットがなくても、最高のシステムと同等ではないものの、パフォーマンスはまずまずでした。
興味深いことに、古くて安価な GPT-3.5-Turbo システムは、事実とリストの回答に関する根拠のある Q&A 設定において GPT-4 と競合することができました。
タスク 11b フェーズ A では、検索に焦点を当て、ゼロショット学習によるクエリ拡張によりパフォーマンスが向上しましたが、モデルは他のシステムと比較すると不十分でした。
これらの実験を再実行するために必要なコードは、GitHub から入手できます。

要約(オリジナル)

We assessed the performance of commercial Large Language Models (LLMs) GPT-3.5-Turbo and GPT-4 on tasks from the 2023 BioASQ challenge. In Task 11b Phase B, which is focused on answer generation, both models demonstrated competitive abilities with leading systems. Remarkably, they achieved this with simple zero-shot learning, grounded with relevant snippets. Even without relevant snippets, their performance was decent, though not on par with the best systems. Interestingly, the older and cheaper GPT-3.5-Turbo system was able to compete with GPT-4 in the grounded Q&A setting on factoid and list answers. In Task 11b Phase A, focusing on retrieval, query expansion through zero-shot learning improved performance, but the models fell short compared to other systems. The code needed to rerun these experiments is available through GitHub.

arxiv情報

著者 Samy Ateia,Udo Kruschwitz
発行日 2023-07-24 08:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク