Evaluating Open-Domain Question Answering in the Era of Large Language Models

要約

レキシカルマッチングは、オープンドメインの質問応答(QA)の事実上の評価手法として残っている。しかし、抽出型から生成型への移行に伴い、ますますその傾向が強まっています。最近のQAにおける大規模言語モデル(LLM)の成功は、候補となる回答が長くなるため、辞書照合の失敗を悪化させ、ゴールドアンサーとの照合をさらに難しくしています。正確な評価がなされなければ、オープンドメインのQAにおける真の進歩は分からないままである。本論文では、LLMを含む様々なオープンドメインQAモデルについて、一般的なベンチマークであるNQ-openのサブセットで回答を手動評価することにより、徹底的な分析を行う。その結果、すべてのモデルの真の性能が著しく過小評価されている一方で、InstructGPT(ゼロショット)LLMの性能は+60%近く向上し、既存のトップモデルと同等となり、InstructGPT(数ショット)モデルは実際にNQ-openで新たな最先端を達成することがわかった。また、辞書照合の失敗の50%以上が、意味的に等価な回答に起因していることがわかりました。さらに、正規表現マッチングは、不必要な厳しさに悩まされながらも、人間の判断と一致するQAモデルのランク付けを行うことを実証しました。最後に、自動化された評価モデルは、状況によっては辞書照合の代用として妥当であるが、LLMによって生成された長文回答に対してはそうではないことを実証するものである。自動化されたモデルは、LLMの回答に含まれる幻覚を検出するのに苦労し、その結果LLMを評価することができない。現時点では、人間の評価に代わるものはないようです。

要約(オリジナル)

Lexical matching remains the de facto evaluation method for open-domain question answering (QA). Unfortunately, lexical matching fails completely when a plausible candidate answer does not appear in the list of gold answers, which is increasingly the case as we shift from extractive to generative models. The recent success of large language models (LLMs) for QA aggravates lexical matching failures since candidate answers become longer, thereby making matching with the gold answers even more challenging. Without accurate evaluation, the true progress in open-domain QA remains unknown. In this paper, we conduct a thorough analysis of various open-domain QA models, including LLMs, by manually evaluating their answers on a subset of NQ-open, a popular benchmark. Our assessments reveal that while the true performance of all models is significantly underestimated, the performance of the InstructGPT (zero-shot) LLM increases by nearly +60%, making it on par with existing top models, and the InstructGPT (few-shot) model actually achieves a new state-of-the-art on NQ-open. We also find that more than 50% of lexical matching failures are attributed to semantically equivalent answers. We further demonstrate that regex matching ranks QA models consistent with human judgments, although still suffering from unnecessary strictness. Finally, we demonstrate that automated evaluation models are a reasonable surrogate for lexical matching in some circumstances, but not for long-form answers generated by LLMs. The automated models struggle in detecting hallucinations in LLM answers and are thus unable to evaluate LLMs. At this time, there appears to be no substitute for human evaluation.

arxiv情報

著者 Ehsan Kamalloo,Nouha Dziri,Charles L. A. Clarke,Davood Rafiei
発行日 2023-05-11 17:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク