Automatic Answerability Evaluation for Question Generation

要約

自然言語生成 (NLG) タスク用に開発された BLEU や ROUGE などの従来の自動評価メトリクスは、生成されたテキストと参照テキストの間の N グラムの重複の測定に基づいています。
これらの単純なメトリクスは、参照回答によって回答可能な質問を生成する必要がある質問生成 (QG) など、より複雑なタスクには不十分な場合があります。
したがって、より洗練された自動評価基準の開発は、QG 研究における緊急の課題として残っています。
この研究では、生成された質問が QG タスクの参照回答によって回答可能かどうかを評価する新しい自動評価指標である、ANswerability に関するプロンプトベースの指標 (PMAN) を提案します。
広範な実験により、その評価結果が信頼でき、人間の評価と一致していることが実証されています。
さらに、私たちのメトリックを QG モデルのパフォーマンスの評価に適用します。これは、私たちのメトリックが従来のメトリックを補完することを示しています。
ChatGPT ベースの QG モデルの実装は、回答可能な質問の生成において最先端 (SOTA) のパフォーマンスを実現します。

要約(オリジナル)

Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed for natural language generation (NLG) tasks, are based on measuring the n-gram overlap between the generated and reference text. These simple metrics may be insufficient for more complex tasks, such as question generation (QG), which requires generating questions that are answerable by the reference answers. Developing a more sophisticated automatic evaluation metric, thus, remains as an urgent problem in QG research. This work proposes a Prompting-based Metric on ANswerability (PMAN), a novel automatic evaluation metric to assess whether the generated questions are answerable by the reference answers for the QG tasks. Extensive experiments demonstrate that its evaluation results are reliable and align with human evaluations. We further apply our metric to evaluate the performance of QG models, which shows our metric complements conventional metrics. Our implementation of a ChatGPT-based QG model achieves state-of-the-art (SOTA) performance in generating answerable questions.

arxiv情報

著者 Zifan Wang,Kotaro Funakoshi,Manabu Okumura
発行日 2023-09-22 00:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク