Augmenting Black-box LLMs with Medical Textbooks for Clinical Question Answering

要約

ChatGPT のような大規模言語モデル (LLM) は、人間の指示に基づいて応答を生成する優れた能力を実証しています。
ただし、医療分野での使用は、具体的で深い知識が不足しているため、困難な場合があります。
この研究では、専門領域における LLM の習熟度を高めるために設計された LLMs Augmented with Medical Textbook (LLM-AMT) と呼ばれるシステムを紹介します。
LLM-AMT は、プラグ アンド プレイ モジュールを使用して、権威ある医学教科書を LLM のフレームワークに統合します。
これらのモジュールには、Query Augmenter、Hybrid Textbook Retriever、Knowledge Self-Refiner が含まれます。
これらは同時に、権威ある医学知識を組み込んでいます。
さらに、LLM リーダーは文脈の理解を助けます。
3 つの医療 QA タスクに関する実験結果は、LLMAMT が応答品質を大幅に向上させ、精度が 11.6% ~ 16.6% 向上することを示しています。
特に、GPT-4-Turbo をベースモデルとして使用する LLM-AMT は、大量の医療コーパスで事前トレーニングされた特殊な Med-PaLM 2 モデルよりも 2 ~ 3% 優れています。
検索コーパスとしての医学教科書は、サイズが 100 分の 1 であるにもかかわらず、医学分野ではウィキペディアよりも効果的な知識データベースであることが証明されており、パフォーマンスが 7.8% ~ 13.7% 向上することがわかりました。

要約(オリジナル)

Large-scale language models (LLMs) like ChatGPT have demonstrated impressive abilities in generating responses based on human instructions. However, their use in the medical field can be challenging due to their lack of specific, in-depth knowledge. In this study, we present a system called LLMs Augmented with Medical Textbooks (LLM-AMT) designed to enhance the proficiency of LLMs in specialized domains. LLM-AMT integrates authoritative medical textbooks into the LLMs’ framework using plug-and-play modules. These modules include a Query Augmenter, a Hybrid Textbook Retriever, and a Knowledge Self-Refiner. Together, they incorporate authoritative medical knowledge. Additionally, an LLM Reader aids in contextual understanding. Our experimental results on three medical QA tasks demonstrate that LLMAMT significantly improves response quality, with accuracy gains ranging from 11.6% to 16.6%. Notably, with GPT-4-Turbo as the base model, LLM-AMT outperforms the specialized Med-PaLM 2 model pre-trained on a massive amount of medical corpus by 2-3%. We found that despite being 100x smaller in size, medical textbooks as a retrieval corpus is proven to be a more effective knowledge database than Wikipedia in the medical domain, boosting performance by 7.8%-13.7%.

arxiv情報

著者 Yubo Wang,Xueguang Ma,Wenhu Chen
発行日 2024-02-22 16:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク