Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model

要約

大規模言語モデル (LLM) は、自然言語処理 (NLP) において大幅な進歩を遂げました。
広範なコーパスは多様なパターンをキャプチャしますが、無関係が生じる可能性がありますが、焦点を絞ったコーパスは誤解を招く情報を減らすことで信頼性を高めます。
焦点を絞ったコーパスで LLM をトレーニングすると、計算上の課題が生じます。
別のアプローチは、特定のドメインでテストされた検索拡張 (RetA) メソッドを使用することです。
LLM のパフォーマンスを評価するために、びまん性大細胞型 B 細胞リンパ腫 (DLBCL) 疾患に関する 19 の質問を使用して、OpenAI の GPT-3、GPT-4、Bing の Prometheus、およびカスタム RetA モデルを比較しました。
8 人の独立した査読者が、正確性、関連性、読みやすさに基づいて回答を評価しました (評価は 1 ~ 3)。
RetA モデルが精度 (12/19、3 点スコア、合計 = 47) と関連性 (13/19、50) で最も優れたパフォーマンスを示し、GPT-4 (8/19、43、11/19、49) がそれに続きました。
GPT-4 が最も高い可読性スコア (17/19、55) を獲得し、GPT-3 (15/19、53)、RetA モデル (11/19、47) が続きました。
Prometheus は、正確性 (34)、関連性 (32)、可読性 (38) の点でパフォーマンスを下回っていました。
GPT-3.5 と GPT-4 は両方とも、RetA モデルや Prometheus と比較して、19 の応答すべてにおいてより多くの幻覚を示しました。
幻覚はほとんどが、存在しない参考文献や捏造された有効性データに関連していました。
これらの発見は、ドメイン固有のコーパスを補足した RetA モデルが、特定のドメイン内での精度と関連性の点で汎用 LLM よりも優れている可能性があることを示唆しています。
ただし、この評価は特定の質問と指標に限定されており、セマンティック検索やその他の NLP タスクの課題を把握できない可能性があります。
今後の研究では、さまざまな LLM アーキテクチャ、RetA 方法論、および評価方法を調査して、強みと限界をより包括的に評価する予定です。

要約(オリジナル)

Large language models (LLMs) have made significant advancements in natural language processing (NLP). Broad corpora capture diverse patterns but can introduce irrelevance, while focused corpora enhance reliability by reducing misleading information. Training LLMs on focused corpora poses computational challenges. An alternative approach is to use a retrieval-augmentation (RetA) method tested in a specific domain. To evaluate LLM performance, OpenAI’s GPT-3, GPT-4, Bing’s Prometheus, and a custom RetA model were compared using 19 questions on diffuse large B-cell lymphoma (DLBCL) disease. Eight independent reviewers assessed responses based on accuracy, relevance, and readability (rated 1-3). The RetA model performed best in accuracy (12/19 3-point scores, total=47) and relevance (13/19, 50), followed by GPT-4 (8/19, 43; 11/19, 49). GPT-4 received the highest readability scores (17/19, 55), followed by GPT-3 (15/19, 53) and the RetA model (11/19, 47). Prometheus underperformed in accuracy (34), relevance (32), and readability (38). Both GPT-3.5 and GPT-4 had more hallucinations in all 19 responses compared to the RetA model and Prometheus. Hallucinations were mostly associated with non-existent references or fabricated efficacy data. These findings suggest that RetA models, supplemented with domain-specific corpora, may outperform general-purpose LLMs in accuracy and relevance within specific domains. However, this evaluation was limited to specific questions and metrics and may not capture challenges in semantic search and other NLP tasks. Further research will explore different LLM architectures, RetA methodologies, and evaluation methods to assess strengths and limitations more comprehensively.

arxiv情報

著者 David Soong,Sriram Sridhar,Han Si,Jan-Samuel Wagner,Ana Caroline Costa Sá,Christina Y Yu,Kubra Karagoz,Meijian Guan,Hisham Hamadeh,Brandon W Higgs
発行日 2023-05-30 15:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク