要約
自動生成された質問には、不明確な表現や事実の不正確さなどの問題が発生することが多く、信頼性の高い包括的な品質評価が必要です。
人間による評価は質問生成 (QG) の分野で広く使用されており、自動メトリクスのゴールドスタンダードとして機能します。
しかし、統一された人間による評価基準が欠如しているため、QG モデルと自動メトリクスの両方の一貫性と信頼性の高い評価が妨げられています。
これに対処するために、私たちは、質問生成の多次元評価ベンチマークである QGEval を提案します。これは、生成された質問と既存の自動メトリクスの両方を、流暢性、明確さ、簡潔さ、関連性、一貫性、回答可能性、回答の一貫性の 7 つの次元にわたって評価します。
これらの次元の相関関係と区別を調べることによって、これらの次元が適切であることを実証します。
QG モデルと QGEval による自動メトリクスの一貫した評価を通じて、1) ほとんどの QG モデルは、回答可能性と回答の一貫性の点で満足のいくパフォーマンスが得られない、2) 生成された質問を 7 つの次元にわたって評価する際に、既存のメトリクスが人間の判断とうまく一致していないことがわかりました。
。
私たちは、この取り組みが QG 技術とその評価の両方の開発を促進することを期待しています。
要約(オリジナル)
Automatically generated questions often suffer from problems such as unclear expression or factual inaccuracies, requiring a reliable and comprehensive evaluation of their quality. Human evaluation is widely used in the field of question generation (QG) and serves as the gold standard for automatic metrics. However, there is a lack of unified human evaluation criteria, which hampers consistent and reliable evaluations of both QG models and automatic metrics. To address this, we propose QGEval, a multi-dimensional Evaluation benchmark for Question Generation, which evaluates both generated questions and existing automatic metrics across 7 dimensions: fluency, clarity, conciseness, relevance, consistency, answerability, and answer consistency. We demonstrate the appropriateness of these dimensions by examining their correlations and distinctions. Through consistent evaluations of QG models and automatic metrics with QGEval, we find that 1) most QG models perform unsatisfactorily in terms of answerability and answer consistency, and 2) existing metrics fail to align well with human judgments when evaluating generated questions across the 7 dimensions. We expect this work to foster the development of both QG technologies and their evaluation.
arxiv情報
著者 | Weiping Fu,Bifan Wei,Jianxiang Hu,Zhongmin Cai,Jun Liu |
発行日 | 2024-10-10 15:12:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google