Evaluating Open-Domain Question Answering in the Era of Large Language Models

要約

字句一致は、依然としてオープンドメインの質問応答 (QA) の事実上の評価方法です。
残念ながら、もっともらしい回答候補がゴールドアンサーのリストに表示されない場合、語彙照合は完全に失敗します。抽出モデルから生成モデルに移行するにつれて、このケースはますます増えています。
QA 向けの大規模言語モデル (LLM) の最近の成功により、回答候補が長くなるために語彙一致の失敗がさらに悪化し、それによってゴールド回答との一致がさらに困難になります。
正確な評価がなければ、オープンドメイン QA の真の進歩は不明のままです。
このペーパーでは、一般的なベンチマークである NQ-open のサブセットで回答を手動で評価することにより、LLM を含むさまざまなオープンドメイン QA モデルの徹底的な分析を実行します。
私たちの評価では、すべてのモデルの実際のパフォーマンスが大幅に過小評価されている一方で、InstructGPT (ゼロショット) LLM のパフォーマンスが +60% 近く向上し、既存のトップ モデルや InstructGPT (フューショット) と同等であることが明らかになりました。
このモデルは実際に NQ-open で新しい最先端を実現しています。
また、語彙一致の失敗の 50% 以上が、意味的に同等の回答に起因していることもわかりました。
さらに、不必要な厳格さはまだ残っているものの、正規表現マッチングによって QA モデルが人間の判断と一致してランク付けされることを示します。
最後に、自動評価モデルは、状況によっては字句一致の合理的な代用となるが、LLM によって生成される長い形式の回答の代用には適さないことを示します。
自動化モデルは、LLM 回答内の幻覚を検出するのに苦労しているため、LLM を評価できません。
現時点では、人間の評価に代わるものはないようです。

要約(オリジナル)

Lexical matching remains the de facto evaluation method for open-domain question answering (QA). Unfortunately, lexical matching fails completely when a plausible candidate answer does not appear in the list of gold answers, which is increasingly the case as we shift from extractive to generative models. The recent success of large language models (LLMs) for QA aggravates lexical matching failures since candidate answers become longer, thereby making matching with the gold answers even more challenging. Without accurate evaluation, the true progress in open-domain QA remains unknown. In this paper, we conduct a thorough analysis of various open-domain QA models, including LLMs, by manually evaluating their answers on a subset of NQ-open, a popular benchmark. Our assessments reveal that while the true performance of all models is significantly underestimated, the performance of the InstructGPT (zero-shot) LLM increases by nearly +60%, making it on par with existing top models, and the InstructGPT (few-shot) model actually achieves a new state-of-the-art on NQ-open. We also find that more than 50% of lexical matching failures are attributed to semantically equivalent answers. We further demonstrate that regex matching ranks QA models consistent with human judgments, although still suffering from unnecessary strictness. Finally, we demonstrate that automated evaluation models are a reasonable surrogate for lexical matching in some circumstances, but not for long-form answers generated by LLMs. The automated models struggle in detecting hallucinations in LLM answers and are thus unable to evaluate LLMs. At this time, there appears to be no substitute for human evaluation.

arxiv情報

著者 Ehsan Kamalloo,Nouha Dziri,Charles L. A. Clarke,Davood Rafiei
発行日 2023-07-06 18:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク