MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems

要約

従来の検索拡張生成 (RAG) ベンチマークは、さまざまなヒューリスティックベースの評価基準に依存していますが、参照用のグランド トゥルースとして人間の好みが必要です。
対照的に、2 つのモデルが互いに競合するアリーナベースのベンチマークでは、信頼性の高い評価を行うための判断材料として高価なラージ言語モデル (LLM) が必要です。
両方の長所を最大限に活用するための簡単で効率的なテクニックを紹介します。
このアイデアは、RAG ベースの評価ヒューリスティックを入力として使用して、モデルを「代理」ジャッジとしてランク付けする学習をトレーニングし、合成アリーナ ベースのリーダーボードを作成することです。
このアイデアを使用して、ウィキペディア上の 18 の多様な言語を対象とした標準化されたアリーナベースの多言語 RAG ベンチマークである MIRAGE-Bench を開発しました。
ベンチマークは検索データセット MIRACL を使用して構築され、多言語生成評価用に拡張されています。
MIRAGE-Bench は、ヒューリスティック機能と LLM の両方を広範囲に組み合わせた RAG を判定評価者として評価します。
私たちの研究では、19 の多様な多言語に焦点を当てた LLM をベンチマークし、ペアごとの評価によるヒューリスティック機能を使用して学習した代理裁判官を使用し、GPT-4o を教師として使用して、高い相関関係 (Kendall Tau ($\tau$) = 0.909) を達成しました。
Bradley-Terry フレームワークを使用した MIRAGE-Bench リーダーボード。
現在、多言語 RAG では独自の大規模なオープンソース LLM が優勢であることが観察されています。
MIRAGE-Bench は https://github.com/vectara/mirage-bench から入手できます。

要約(オリジナル)

Traditional Retrieval-Augmented Generation (RAG) benchmarks rely on different heuristic-based metrics for evaluation, but these require human preferences as ground truth for reference. In contrast, arena-based benchmarks, where two models compete each other, require an expensive Large Language Model (LLM) as a judge for a reliable evaluation. We present an easy and efficient technique to get the best of both worlds. The idea is to train a learning to rank model as a ‘surrogate’ judge using RAG-based evaluation heuristics as input, to produce a synthetic arena-based leaderboard. Using this idea, We develop MIRAGE-Bench, a standardized arena-based multilingual RAG benchmark for 18 diverse languages on Wikipedia. The benchmark is constructed using MIRACL, a retrieval dataset, and extended for multilingual generation evaluation. MIRAGE-Bench evaluates RAG extensively coupling both heuristic features and LLM as a judge evaluator. In our work, we benchmark 19 diverse multilingual-focused LLMs, and achieve a high correlation (Kendall Tau ($\tau$) = 0.909) using our surrogate judge learned using heuristic features with pairwise evaluations and between GPT-4o as a teacher on the MIRAGE-Bench leaderboard using the Bradley-Terry framework. We observe proprietary and large open-source LLMs currently dominate in multilingual RAG. MIRAGE-Bench is available at: https://github.com/vectara/mirage-bench.

arxiv情報

著者 Nandan Thakur,Suleman Kazi,Ge Luo,Jimmy Lin,Amin Ahmad
発行日 2024-10-17 16:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク