要約
従来のRAG(Retrieval Augmented Generation)における事実の矛盾エラーの一般的な問題は、事実の一貫性評価(FCE)の研究の動機となる。先に提案された様々なFCE手法にもかかわらず、これらの手法は特定の大規模言語モデル(LLM)によって生成されたデータセットで評価されている。包括的なベンチマークがないため、これらのFCE手法が、異なる誤り分布を持つ他のLLMや、未知の誤りタイプに対してどのように機能するかは未解明である。このギャップを埋めるために、本論文では、基礎となるLLMに依存しないRAGのための初の包括的なFCEベンチマーク୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を提案します。我々のベンチマークは、注意深く設計された事実性不整合エラーの類型に基づいて構築された合成データセットと、一般的に使用される6つのLLMから構築された実世界データセットから構成され、特定のエラータイプや実世界のエラー分布に対するFCE手法の評価を可能にする。提案したベンチマークにおいて、既存のFCE手法が論理的誤謬を検出できないことを発見した。論理的誤謬とは、解答と検索された参照との間の論理構造の不一致を指す。この問題を解決するために、我々はさらに、論理保存回答分解とファクトロジックFCEの2つの新しい設計を持つ、ⅳemph{L-Face4RAG}と呼ばれる新しい方法を提案する。広範な実験により、L-Face4RAGは、広範囲のタスクにおいて、事実の矛盾を検出する従来の手法を大幅に上回ることが示された。ベンチマークと我々の提案手法は両方とも公開されている。
要約(オリジナル)
The prevailing issue of factual inconsistency errors in conventional Retrieval Augmented Generation (RAG) motivates the study of Factual Consistency Evaluation (FCE). Despite the various FCE methods proposed earlier, these methods are evaluated on datasets generated by specific Large Language Models (LLMs). Without a comprehensive benchmark, it remains unexplored how these FCE methods perform on other LLMs with different error distributions or even unseen error types, as these methods may fail to detect the error types generated by other LLMs. To fill this gap, in this paper, we propose the first comprehensive FCE benchmark \emph{Face4RAG} for RAG independent of the underlying LLM. Our benchmark consists of a synthetic dataset built upon a carefully designed typology for factuality inconsistency error and a real-world dataset constructed from six commonly used LLMs, enabling evaluation of FCE methods on specific error types or real-world error distributions. On the proposed benchmark, we discover the failure of existing FCE methods to detect the logical fallacy, which refers to a mismatch of logic structures between the answer and the retrieved reference. To fix this issue, we further propose a new method called \emph{L-Face4RAG} with two novel designs of logic-preserving answer decomposition and fact-logic FCE. Extensive experiments show L-Face4RAG substantially outperforms previous methods for factual inconsistency detection on a wide range of tasks, notably beyond the RAG task from which it is originally motivated. Both the benchmark and our proposed method are publicly available.\footnote{\url{https://huggingface.co/datasets/yq27/Face4RAG}\label{link_face4rag}}
arxiv情報
著者 | Yunqi Xu,Tianchi Cai,Jiyan Jiang,Xierui Song |
発行日 | 2024-07-03 12:49:34+00:00 |
arxivサイト | arxiv_id(pdf) |