Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need

要約

我々は、正しさ、完全性、誠実さを評価するように設計された新しい採点システムであるvRAG-Evalを用いた、検索支援生成(RAG)アプリケーションにおける回答の品質評価に関する包括的な研究を発表する。さらに、チャットアプリケーションで一般的に使用される直感的な「親指を立てる」または「親指を下げる」ジェスチャーを反映して、前述の品質側面の評定を、受諾または拒否の決定を示すバイナリスコアにマッピングする。このアプローチは、明確な決定意見が不可欠な実際のビジネス環境に適しています。我々の評価では、vRAG-Evalを2つの大規模言語モデル(LLM)に適用し、バニラRAGアプリケーションによって生成された回答の品質を評価する。これらの評価を人間の専門家の判断と比較し、GPT-4の評価と人間の専門家の判断の間にかなりの整合性があることを発見した。この研究は、LLMがクローズドドメイン、クローズドエンドの環境において信頼できる評価者である可能性を強調している。

要約(オリジナル)

We present a comprehensive study of answer quality evaluation in Retrieval-Augmented Generation (RAG) applications using vRAG-Eval, a novel grading system that is designed to assess correctness, completeness, and honesty. We further map the grading of quality aspects aforementioned into a binary score, indicating an accept or reject decision, mirroring the intuitive ‘thumbs-up’ or ‘thumbs-down’ gesture commonly used in chat applications. This approach suits factual business settings where a clear decision opinion is essential. Our assessment applies vRAG-Eval to two Large Language Models (LLMs), evaluating the quality of answers generated by a vanilla RAG application. We compare these evaluations with human expert judgments and find a substantial alignment between GPT-4’s assessments and those of human experts, reaching 83% agreement on accept or reject decisions. This study highlights the potential of LLMs as reliable evaluators in closed-domain, closed-ended settings, particularly when human evaluations require significant resources.

arxiv情報

著者 Yang Wang,Alberto Garcia Hernandez,Roman Kyslyi,Nicholas Kersting
発行日 2024-07-05 09:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク