要約
大規模な言語モデル(LLMS)は、取得した世代(RAG)として知られる外部から取得された知識を組み込むことにより、生成パフォーマンスの改善を実証しました。
このアプローチの可能性にもかかわらず、既存の研究は、1)検索と生成コンポーネントを共同で評価することにより、RAGの有効性を評価します。
上記の制限に対処するために、この作業では、RAGフレームワーク内の情報ゲインを通じて検索品質を測定する自動評価方法を紹介します。
具体的には、検索された情報の正確性に関するLLMの内部信念を捉えるメトリックであるセマンティックの困惑(SEPER)を提案します。
検索後の困惑を減らす程度により、検索の有用性を定量化します。
広範な実験は、Seperが人間の好みと密接に整合するだけでなく、多様なRAGシナリオ全体で検索ユーティリティのより正確で効率的な評価を提供することを示しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated improved generation performance by incorporating externally retrieved knowledge, a process known as retrieval-augmented generation (RAG). Despite the potential of this approach, existing studies evaluate RAG effectiveness by 1) assessing retrieval and generation components jointly, which obscures retrieval’s distinct contribution, or 2) examining retrievers using traditional metrics such as NDCG, which creates a gap in understanding retrieval’s true utility in the overall generation process. To address the above limitations, in this work, we introduce an automatic evaluation method that measures retrieval quality through the lens of information gain within the RAG framework. Specifically, we propose Semantic Perplexity (SePer), a metric that captures the LLM’s internal belief about the correctness of the retrieved information. We quantify the utility of retrieval by the extent to which it reduces semantic perplexity post-retrieval. Extensive experiments demonstrate that SePer not only aligns closely with human preferences but also offers a more precise and efficient evaluation of retrieval utility across diverse RAG scenarios.
arxiv情報
著者 | Lu Dai,Yijie Xu,Jinhui Ye,Hao Liu,Hui Xiong |
発行日 | 2025-03-20 11:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google