JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability

要約

大規模言語モデル (LLM) は、医療知識の獲得と質問応答において顕著な可能性を示しています。
ただし、ドメイン固有の事前トレーニングを行ったとしても、LLM は幻覚を起こし、事実と異なる結果をもたらす可能性があります。
これまで、検索拡張生成 (RAG) は幻覚への対処において限定的な成功を収めてきました。
検索モデルが LLM とは別にトレーニングされた RAG の以前の方法とは異なり、微調整段階で JMLR (LLM と情報検索を共同トレーニングするため) を導入します。
同期トレーニング メカニズムにより、JMLR の臨床ガイドラインを検索し、医学知識を活用して推論して質問に答える能力が強化され、計算リソースの需要が軽減されます。
重要な医療質問応答アプリケーションに関する JMLR を評価しました。
私たちの実験結果は、JMLR-13B (70.5%) が、従来の事前トレーニングと微調整を使用した従来の最先端のオープンソース モデルを上回るパフォーマンスを示すことを示しています。 Meditron-70B (68.9%) および RAG を使用した Llama2-13B (67.7%)
%) は医療質問応答データセット上です。
総合的な評価により、JMLR-13B は Claude3-Opus よりも推論の質を高め、幻覚を軽減することが明らかになりました。
さらに、JMLR-13B (148 GPU 時間) は、Meditron-70B (42630 GPU 時間) よりもはるかに高速にトレーニングします。
この研究を通じて、私たちはヘルスケアのための新しく効率的な知識強化方法を提供し、医療質問応答システムの検索と LLM トレーニングを統合する可能性を実証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated a remarkable potential in medical knowledge acquisition and question-answering. However, LLMs can potentially hallucinate and yield factually incorrect outcomes, even with domain-specific pretraining. Previously, retrieval augmented generation (RAG) has limited success in addressing hallucinations. Unlike previous methods in RAG where the retrieval model was trained separately from the LLM, we introduce JMLR (for Jointly trains LLM and information Retrieval) during the fine-tuning phase. The synchronized training mechanism enhances JMLR’s ability to retrieve clinical guidelines and leverage medical knowledge to reason and answer questions and reduces the demand for computational resources. We evaluated JMLR on the important medical question-answering application. Our experimental results demonstrate that JMLR-13B (70.5%) outperforms a previous state-of-the-art open-source model using conventional pre-training and fine-tuning Meditron-70B (68.9%) and Llama2-13B with RAG (67.7%) on a medical question-answering dataset. Comprehensive evaluations reveal JMLR-13B enhances reasoning quality and reduces hallucinations better than Claude3-Opus. Additionally, JMLR-13B (148 GPU hours) also trains much faster than Meditron-70B (42630 GPU hours). Through this work, we provide a new and efficient knowledge enhancement method for healthcare, demonstrating the potential of integrating retrieval and LLM training for medical question-answering systems.

arxiv情報

著者 Junda Wang,Zhichao Yang,Zonghai Yao,Hong Yu
発行日 2024-06-28 13:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク