要約
検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚を効果的に減少させますが、一貫性のないまたはサポートされていないコンテンツを生成できます。
LLM-as-a-judgeは、その実装の単純さのためにRAG幻覚検出に広く使用されていますが、包括的な評価ベンチマークの欠如とドメインが最適化された裁判官モデルの欠如という2つの主な課題に直面しています。
これらのギャップを埋めるために、バイリンガルのベンチマークデータセットと軽量の裁判官モデルを備えた新しいフレームワークである\ textBf {bi’an}を紹介します。
データセットは、複数のRAGシナリオで厳密な評価をサポートし、裁判官モデルはコンパクトなオープンソースLLMから微調整されています。
Bi’Anbenchでの広範な実験的評価は、14Bモデルがベースラインモデルを5倍以上のパラメータースケールを超え、最先端のクローズドソースLLMをライバルで上回ることを示しています。
すぐにhttps://github.com/openspg/kagでデータとモデルをリリースします。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) effectively reduces hallucinations in Large Language Models (LLMs) but can still produce inconsistent or unsupported content. Although LLM-as-a-Judge is widely used for RAG hallucination detection due to its implementation simplicity, it faces two main challenges: the absence of comprehensive evaluation benchmarks and the lack of domain-optimized judge models. To bridge these gaps, we introduce \textbf{Bi’an}, a novel framework featuring a bilingual benchmark dataset and lightweight judge models. The dataset supports rigorous evaluation across multiple RAG scenarios, while the judge models are fine-tuned from compact open-source LLMs. Extensive experimental evaluations on Bi’anBench show our 14B model outperforms baseline models with over five times larger parameter scales and rivals state-of-the-art closed-source LLMs. We will release our data and models soon at https://github.com/OpenSPG/KAG.
arxiv情報
著者 | Zhouyu Jiang,Mengshu Sun,Zhiqiang Zhang,Lei Liang |
発行日 | 2025-02-26 15:12:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google