ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems

要約

検索拡張生成 (RAG) システムの評価は、従来、入力クエリ、取得するパッセージ、生成する応答に対する手作業の注釈に依存していました。
コンテキストの関連性、回答の忠実性、回答の関連性の次元に沿って RAG システムを評価するための、自動 RAG 評価システムである ARES を紹介します。
ARES は、独自の合成トレーニング データを作成することにより、軽量の LM ジャッジを微調整して、個々の RAG コンポーネントの品質を評価します。
潜在的な予測エラーを軽減するために、ARES は、人間が注釈を付けた少数のデータポイントのセットを予測パワー推論 (PPI) に利用します。
KILT、SuperGLUE、AIS の 8 つの異なる知識集約型タスクにわたって、ARES は RAG システムを正確に評価しますが、評価中に使用する人間の注釈はわずか数百です。
さらに、ARES ジャッジはドメインの移行後も有効であり、評価対象の RAG システムで使用されるクエリやドキュメントの種類を変更した後でも正確であることが証明されます。
コードとデータセットは Github で公開しています。

要約(オリジナル)

Evaluating retrieval-augmented generation (RAG) systems traditionally relies on hand annotations for input queries, passages to retrieve, and responses to generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating RAG systems along the dimensions of context relevance, answer faithfulness, and answer relevance. By creating its own synthetic training data, ARES finetunes lightweight LM judges to assess the quality of individual RAG components. To mitigate potential prediction errors, ARES utilizes a small set of human-annotated datapoints for prediction-powered inference (PPI). Across eight different knowledge-intensive tasks in KILT, SuperGLUE, and AIS, ARES accurately evaluates RAG systems while using only a few hundred human annotations during evaluation. Furthermore, ARES judges remain effective across domain shifts, proving accurate even after changing the type of queries and/or documents used in the evaluated RAG systems. We make our code and datasets publicly available on Github.

arxiv情報

著者 Jon Saad-Falcon,Omar Khattab,Christopher Potts,Matei Zaharia
発行日 2024-03-31 20:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク