要約
ベンチマークがすぐに古くなる可能性があるため、大規模な言語モデル(LLMS)で検索された生成(RAG)を評価することは困難です。
新しいモデルは、事前トレーニング中により最近の情報を組み込んでおり、エビデンスに基づいた推論をリコールと区別することが困難であるため、最初に検索を必要とする質問は、前の知識から答えられる可能性があります。
この問題に対処するために設計されたベンチマークであるNeoqa(トレーニング外の質問応答に関するニュースイベント)を紹介します。
NEOQAを構築するために、架空のニュースイベントとエンティティのタイムラインと知識ベースを生成し、ニュース記事とQ \&Aペアを作成して、LLMSが事前侵害の知識を活用しないようにし、トレーニングデータに事前の証拠が存在しないことを保証しました。
データセットは、証拠に基づいた質問応答を評価するための新しいプラットフォームとして提案します。これは、LLMが検索された証拠からのみ回答を生成する必要があるため、十分な証拠が利用可能である場合にのみ必要です。
NEOQAは、詳細が欠落または誤解を招くケースを含む、さまざまな証拠シナリオで制御された評価を可能にします。
私たちの調査結果は、LLMSが質問と証拠の間の微妙な不一致を区別するのに苦労しており、質問に答えるために必要な重要な情報が証拠に欠けている場合、証拠に基づいた推論の重要な制限を強調している場合、短いカット推論に苦しんでいることを示しています。
要約(オリジナル)
Evaluating Retrieval-Augmented Generation (RAG) in large language models (LLMs) is challenging because benchmarks can quickly become stale. Questions initially requiring retrieval may become answerable from pretraining knowledge as newer models incorporate more recent information during pretraining, making it difficult to distinguish evidence-based reasoning from recall. We introduce NeoQA (News Events for Out-of-training Question Answering), a benchmark designed to address this issue. To construct NeoQA, we generated timelines and knowledge bases of fictional news events and entities along with news articles and Q\&A pairs to prevent LLMs from leveraging pretraining knowledge, ensuring that no prior evidence exists in their training data. We propose our dataset as a new platform for evaluating evidence-based question answering, as it requires LLMs to generate responses exclusively from retrieved evidence and only when sufficient evidence is available. NeoQA enables controlled evaluation across various evidence scenarios, including cases with missing or misleading details. Our findings indicate that LLMs struggle to distinguish subtle mismatches between questions and evidence, and suffer from short-cut reasoning when key information required to answer a question is missing from the evidence, underscoring key limitations in evidence-based reasoning.
arxiv情報
著者 | Max Glockner,Xiang Jiang,Leonardo F. R. Ribeiro,Iryna Gurevych,Markus Dreyer |
発行日 | 2025-05-09 10:51:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google