要約
大規模言語モデルの継続的な進歩により、さまざまな NLP タスクにわたって目覚ましい成功が実証されていますが、検索拡張生成モデルは、質問応答などの下流アプリケーションで非常に効果的であることが際立っています。
最近、RAG-end2end モデルはアーキテクチャをさらに最適化し、ドメイン適応において顕著なパフォーマンスの向上を達成しました。
ただし、これらの RAG ベースのアーキテクチャの有効性は、信頼性の高い会話型 AI システムを構築するために顧客サービスなどの特殊なドメインで微調整した場合、比較的未解明のままです。
さらに、ドメイン固有の高い精度を維持しながら幻覚の発生を軽減するという重要な課題が依然として残っています。
このペーパーでは、ドメイン適応を通じて多様な RAG および RAG 類似アーキテクチャのパフォーマンスを調査し、コンテキスト知識ベースに基づいて正確で適切な応答を生成する能力を評価しました。
モデルの評価を容易にするために、ホテル関連の幅広い会話をソースとした新しいデータセット HotelConvQA を構築し、ドメイン固有のデータセット上のすべてのモデルを微調整しました。
また、さまざまな RAG アーキテクチャ間での幻覚の低減に対するドメイン適応の影響を決定する上での重要な研究ギャップにも取り組みました。これは、以前の研究では適切に測定されていなかった側面です。
私たちの評価では、ドメイン適応を採用することですべての指標で肯定的な結果が得られ、QA タスクで優れたパフォーマンスを実証し、幻覚を軽減する効果についての洞察が得られました。
私たちの調査結果は、ドメイン適応が QA タスクにおけるモデルのパフォーマンスを向上させるだけでなく、評価されたすべての RAG アーキテクチャにわたって幻覚を大幅に軽減することを明確に示しています。
要約(オリジナル)
While ongoing advancements in Large Language Models have demonstrated remarkable success across various NLP tasks, Retrieval Augmented Generation Model stands out to be highly effective on downstream applications like Question Answering. Recently, RAG-end2end model further optimized the architecture and achieved notable performance improvements on domain adaptation. However, the effectiveness of these RAG-based architectures remains relatively unexplored when fine-tuned on specialized domains such as customer service for building a reliable conversational AI system. Furthermore, a critical challenge persists in reducing the occurrence of hallucinations while maintaining high domain-specific accuracy. In this paper, we investigated the performance of diverse RAG and RAG-like architectures through domain adaptation and evaluated their ability to generate accurate and relevant response grounded in the contextual knowledge base. To facilitate the evaluation of the models, we constructed a novel dataset HotelConvQA, sourced from wide range of hotel-related conversations and fine-tuned all the models on our domain specific dataset. We also addressed a critical research gap on determining the impact of domain adaptation on reducing hallucinations across different RAG architectures, an aspect that was not properly measured in prior work. Our evaluation shows positive results in all metrics by employing domain adaptation, demonstrating strong performance on QA tasks and providing insights into their efficacy in reducing hallucinations. Our findings clearly indicate that domain adaptation not only enhances the models’ performance on QA tasks but also significantly reduces hallucination across all evaluated RAG architectures.
arxiv情報
著者 | Salman Rakin,Md. A. R. Shibly,Zahin M. Hossain,Zeeshan Khan,Md. Mostofa Akbar |
発行日 | 2024-10-23 11:32:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google