SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References

要約

QA システムの評価は非常に難しく、費用がかかります。最も信頼できるアプローチは、質問に対する回答の正しさについて人間が注釈を付けることです。
最近の研究 (AVA、BEM) では、変圧器 LM エンコーダ ベースの類似性メトリックが QA 評価に適切に転送されることが示されていますが、単一の正しい参照回答の使用によって制限されます。
我々は、文章形式のQAに対して複数の参照回答(複数の正誤参照の組み合わせ)を使用する新しい評価指標SQuArE(Sentence-level QUEstion AnsweRing Evaluation)を提案します。
私たちは、複数の学術データセットおよび産業データセットにわたって、文レベルの抽出 (回答選択) および生成 (GenQA) QA システムの両方で SQuArE を評価し、以前のベースラインを上回るパフォーマンスを示し、人間による注釈との最高の相関関係が得られることを示しました。

要約(オリジナル)

Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.

arxiv情報

著者 Matteo Gabburo,Siddhant Garg,Rik Koncel Kedziorski,Alessandro Moschitti
発行日 2023-09-21 16:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク