Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation

要約

大規模言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて素晴らしい能力を示している。本研究では、LoRA(Low-Rank Adaptation)による微調整とRAG(Retrieval-Augmented Generation)フレームワークという2つの著名な手法の新しい比較分析を、医療ドメインが混在する複数のデータセットを用いた医師と患者のチャット会話の文脈で行うことを目的としている。分析には3つの最新モデルが含まれる:Llama-2、GPT、LSTMモデルである。実世界の医師と患者の対話を採用し、言語品質(当惑度、BLEUスコア)、事実の正確さ(医療知識ベースに対する事実確認)、医療ガイドラインの遵守、総合的な人間の判断(一貫性、共感、安全性)などの主要な指標を評価しながら、モデルの性能を総合的に評価する。調査結果は、各アプローチの長所と限界に関する洞察を提供し、ヘルスケアアプリケーションへの適合性に光を当てる。さらに、一般的な健康状態から特定の病状に至るまで、多様な患者からの問い合わせに対応するモデルの頑健性を調査している。ドメイン固有の知識統合の影響も調査し、ターゲットとするデータの増強と検索戦略によってLLMのパフォーマンスを向上させる可能性を強調している。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities in natural language processing tasks, including dialogue generation. This research aims to conduct a novel comparative analysis of two prominent techniques, fine-tuning with LoRA (Low-Rank Adaptation) and the Retrieval-Augmented Generation (RAG) framework, in the context of doctor-patient chat conversations with multiple datasets of mixed medical domains. The analysis involves three state-of-the-art models: Llama-2, GPT, and the LSTM model. Employing real-world doctor-patient dialogues, we comprehensively evaluate the performance of models, assessing key metrics such as language quality (perplexity, BLEU score), factual accuracy (fact-checking against medical knowledge bases), adherence to medical guidelines, and overall human judgments (coherence, empathy, safety). The findings provide insights into the strengths and limitations of each approach, shedding light on their suitability for healthcare applications. Furthermore, the research investigates the robustness of the models in handling diverse patient queries, ranging from general health inquiries to specific medical conditions. The impact of domain-specific knowledge integration is also explored, highlighting the potential for enhancing LLM performance through targeted data augmentation and retrieval strategies.

arxiv情報

著者 Atharva Mangeshkumar Agrawal,Rutika Pandurang Shinde,Vasanth Kumar Bhukya,Ashmita Chakraborty,Sagar Bharat Shah,Tanmay Shukla,Sree Pradeep Kumar Relangi,Nilesh Mutyam
発行日 2025-02-04 11:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク