要約
Retriever Augmented Generation (RAG) システムは、外部の知識検索メカニズムを組み込むことで言語モデルの機能を強化する上で極めて重要になっています。
ただし、これらのシステムを産業アプリケーションに導入する際の大きな課題は、モデルが取得したコンテキストに基づいていない情報を生成する幻覚の検出と軽減です。
この問題に対処することは、さまざまな業界環境で大規模言語モデル (LLM) によって生成される応答の信頼性と正確性を確保するために重要です。
現在の幻覚検出技術は、精度、低遅延、低コストを同時に実現することができません。
Luna は、RAG 設定での幻覚検出用に微調整された DeBERTA 大型 (440M) エンコーダーです。
我々は、Luna が幻覚検出タスクにおいて GPT-3.5 および市販の評価フレームワークを上回り、コストと遅延をそれぞれ 97% および 91% 削減することを実証しました。
Luna は軽量であり、複数の業界やドメイン外のデータにわたって汎用化されているため、業界の LLM アプリケーションの理想的な候補となります。
要約(オリジナル)
Retriever Augmented Generation (RAG) systems have become pivotal in enhancing the capabilities of language models by incorporating external knowledge retrieval mechanisms. However, a significant challenge in deploying these systems in industry applications is the detection and mitigation of hallucinations: instances where the model generates information that is not grounded in the retrieved context. Addressing this issue is crucial for ensuring the reliability and accuracy of responses generated by large language models (LLMs) in diverse industry settings. Current hallucination detection techniques fail to deliver accuracy, low latency, and low cost simultaneously. We introduce Luna: a DeBERTA-large (440M) encoder, finetuned for hallucination detection in RAG settings. We demonstrate that Luna outperforms GPT-3.5 and commercial evaluation frameworks on the hallucination detection task, with 97% and 91% reduction in cost and latency, respectively. Luna is lightweight and generalizes across multiple industry verticals and out-of-domain data, making it an ideal candidate for industry LLM applications.
arxiv情報
| 著者 | Masha Belyi,Robert Friel,Shuai Shao,Atindriyo Sanyal |
| 発行日 | 2024-06-05 15:45:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google