Can GPT Redefine Medical Understanding? Evaluating GPT on Biomedical Machine Reading Comprehension

要約

大規模言語モデル (LLM) は、さまざまなドメインの多くのタスクで顕著なパフォーマンスを示しています。
ただし、クローズドブック生物医学機械読解 (MRC) におけるパフォーマンスは詳細には評価されていません。
この研究では、4 つのクローズドブック生物医学 MRC ベンチマークで GPT を評価します。
私たちは、さまざまな従来のプロンプト手法を実験するとともに、独自の新しいプロンプト手法を導入します。
LLM に固有の検索問題の一部を解決するために、従来の RAG 設定で重要なチャンクを取得するためにベクトル データベースを使用する必要性を軽減する、暗黙的検索拡張生成 (RAG) と呼ばれるプロンプト戦略を提案します。
さらに、私たちのアプローチによる自然言語生成の出力に関する定性的評価を報告します。
結果は、私たちの新しいプロンプト手法が 4 つのデータセットのうち 2 つで最高のパフォーマンスを得ることができ、残りのデータセットでは 2 位にランクされることを示しています。
実験によれば、GPT のような最新の LLM はゼロショット設定でも教師ありモデルを上回るパフォーマンスを示し、ベンチマークのうち 2 つで新しい最先端 (SoTA) の結果が得られます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable performance on many tasks in different domains. However, their performance in closed-book biomedical machine reading comprehension (MRC) has not been evaluated in depth. In this work, we evaluate GPT on four closed-book biomedical MRC benchmarks. We experiment with different conventional prompting techniques as well as introduce our own novel prompting method. To solve some of the retrieval problems inherent to LLMs, we propose a prompting strategy named Implicit Retrieval Augmented Generation (RAG) that alleviates the need for using vector databases to retrieve important chunks in traditional RAG setups. Moreover, we report qualitative assessments on the natural language generation outputs from our approach. The results show that our new prompting technique is able to get the best performance in two out of four datasets and ranks second in rest of them. Experiments show that modern-day LLMs like GPT even in a zero-shot setting can outperform supervised models, leading to new state-of-the-art (SoTA) results on two of the benchmarks.

arxiv情報

著者 Shubham Vatsal,Ayush Singh
発行日 2024-10-25 16:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク