Reference-based Metrics Disprove Themselves in Question Generation

要約

BLEU や BERTScore などの参照ベースの指標は、質問生成 (QG) を評価するために広く使用されています。
この研究では、SQuAD や HotpotQA などの QG ベンチマークに関して、人間が作成した参照を使用しても参照ベースのメトリクスの有効性を保証できないことがわかりました。
ほとんどの QG ベンチマークには参照が 1 つだけあります。
注釈プロセスを複製し、別の参照を収集します。
優れた指標では、人間が検証した質問が生成された質問と同等に評価されることが期待されます。
しかし、新しく収集したリファレンスに関するリファレンスベースのメトリクスの結果は、メトリクス自体が反証したものでした。
私たちは、大規模な言語モデルを利用して、自然さ、答えやすさ、複雑さなどの多次元の基準で構成される参照不要の指標を提案します。
これらの基準は、単一の参照質問の構文や意味に制約されず、指標には多様な参照セットが必要ありません。
実験の結果、私たちの指標が質の高い質問と欠陥のある質問を正確に区別し、人間の判断との最先端の整合性を実現していることが明らかになりました。

要約(オリジナル)

Reference-based metrics such as BLEU and BERTScore are widely used to evaluate question generation (QG). In this study, on QG benchmarks such as SQuAD and HotpotQA, we find that using human-written references cannot guarantee the effectiveness of the reference-based metrics. Most QG benchmarks have only one reference; we replicate the annotation process and collect another reference. A good metric is expected to grade a human-validated question no worse than generated questions. However, the results of reference-based metrics on our newly collected reference disproved the metrics themselves. We propose a reference-free metric consisted of multi-dimensional criteria such as naturalness, answerability, and complexity, utilizing large language models. These criteria are not constrained to the syntactic or semantic of a single reference question, and the metric does not require a diverse set of references. Experiments reveal that our metric accurately distinguishes between high-quality questions and flawed ones, and achieves state-of-the-art alignment with human judgment.

arxiv情報

著者 Bang Nguyen,Mengxia Yu,Yun Huang,Meng Jiang
発行日 2024-10-10 16:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク