Bi’an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚を効果的に減少させますが、一貫性のないまたはサポートされていないコンテンツを生成できます。
LLM-as-a-judgeは、その実装の単純さのためにRAG幻覚検出に広く使用されていますが、包括的な評価ベンチマークの欠如とドメインが最適化された裁判官モデルの欠如という2つの主な課題に直面しています。
これらのギャップを埋めるために、バイリンガルのベンチマークデータセットと軽量の裁判官モデルを備えた新しいフレームワークである\ textBf {bi’an}を紹介します。
データセットは、複数のRAGシナリオで厳密な評価をサポートし、裁判官モデルはコンパクトなオープンソースLLMから微調整されています。
Bi’Anbenchでの広範な実験的評価は、14Bモデルがベースラインモデルを5倍以上のパラメータースケールを超え、最先端のクローズドソースLLMをライバルで上回ることを示しています。
すぐにhttps://github.com/openspg/kag​​でデータとモデルをリリースします。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) effectively reduces hallucinations in Large Language Models (LLMs) but can still produce inconsistent or unsupported content. Although LLM-as-a-Judge is widely used for RAG hallucination detection due to its implementation simplicity, it faces two main challenges: the absence of comprehensive evaluation benchmarks and the lack of domain-optimized judge models. To bridge these gaps, we introduce \textbf{Bi’an}, a novel framework featuring a bilingual benchmark dataset and lightweight judge models. The dataset supports rigorous evaluation across multiple RAG scenarios, while the judge models are fine-tuned from compact open-source LLMs. Extensive experimental evaluations on Bi’anBench show our 14B model outperforms baseline models with over five times larger parameter scales and rivals state-of-the-art closed-source LLMs. We will release our data and models soon at https://github.com/OpenSPG/KAG.

arxiv情報

著者 Zhouyu Jiang,Mengshu Sun,Zhiqiang Zhang,Lei Liang
発行日 2025-02-26 15:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク