A Critical Evaluation of Evaluations for Long-form Question Answering

要約

長文質問応答 (LFQA) を使用すると、幅広い質問に答えることができますが、その柔軟性により、評価には大きな課題が生じます。
私たちは、人間による評価実践と自動評価実践の両方を対象とした、長文回答の評価に関する最初の的を絞った研究を実行します。
私たちは 7 つの分野の専門家を雇用し、回答のペアに対する好みの判断と、その選択に対する自由形式の正当性を提供します。
回答の網羅性など新たな側面に着目した、専門家の評価を丁寧に分析してご紹介します。
次に、自動テキスト生成メトリクスを調べ、人間の好みの判断を予測できる既存のメトリクスがないことがわかりました。
ただし、一部の指標は回答の詳細な側面 (一貫性など) と相関しています。
今後の作業では、回答の単一の「総合スコア」から離れ、事実性や完全性などの側面を対象とした多面的な評価を採用することをお勧めします。
将来の LFQA 評価への取り組みを促進するために、すべての注釈とコードを公開します。

要約(オリジナル)

Long-form question answering (LFQA) enables answering a wide range of questions, but its flexibility poses enormous challenges for evaluation. We perform the first targeted study of the evaluation of long-form answers, covering both human and automatic evaluation practices. We hire domain experts in seven areas to provide preference judgments over pairs of answers, along with free-form justifications for their choices. We present a careful analysis of experts’ evaluation, which focuses on new aspects such as the comprehensiveness of the answer. Next, we examine automatic text generation metrics, finding that no existing metrics are predictive of human preference judgments. However, some metrics correlate with fine-grained aspects of answers (e.g., coherence). We encourage future work to move away from a single ‘overall score’ of the answer and adopt a multi-faceted evaluation, targeting aspects such as factuality and completeness. We publicly release all of our annotations and code to spur future work into LFQA evaluation.

arxiv情報

著者 Fangyuan Xu,Yixiao Song,Mohit Iyyer,Eunsol Choi
発行日 2023-05-29 16:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク