要約
最先端の要約システムは、非常に流暢な要約を生成できます。
ただし、これらの概要には、事実の不一致や情報源に存在しない情報が含まれる場合があります。
したがって、要約の品質を評価する重要な要素は、情報源と要約の間に情報の一貫性があるかどうかを判断することです。
既存のアプローチは通常、字句一致または表現ベースの方法に基づいています。
この研究では、情報源と概要に存在する情報を直接比較する、標準的な情報理論的尺度に基づいた代替スキームを導入します。
我々は、多肢選択質問の回答および生成フレームワークである MQAG を提案します。これは、自動的に生成された多肢選択質問の要約とソース回答の分布の間の予想される統計的距離を計算することにより、情報の一貫性を近似します。
このアプローチでは、予測された回答の分布を比較できるため、複数の選択肢の回答確率を利用します。
QAG-CNNDM/XSum、XSum-Hallucination、Podcast Assessment、SummEval の 4 つの要約評価データセットで実験を実施します。
実験によると、SQuAD または RACE でトレーニングされたモデルを使用する MQAG は、大部分のタスクで既存の評価方法よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
State-of-the-art summarization systems can generate highly fluent summaries. These summaries, however, may contain factual inconsistencies and/or information not present in the source. Hence, an important component of assessing the quality of summaries is to determine whether there is information consistency between the source and the summary. Existing approaches are typically based on lexical matching or representation-based methods. In this work, we introduce an alternative scheme based on standard information-theoretic measures in which the information present in the source and summary is directly compared. We propose a Multiple-choice Question Answering and Generation framework, MQAG, which approximates the information consistency by computing the expected statistical distance between summary and source answer distributions over automatically generated multiple-choice questions. This approach exploits multiple-choice answer probabilities, as predicted answer distributions can be compared. We conduct experiments on four summary evaluation datasets: QAG-CNNDM/XSum, XSum-Hallucination, Podcast Assessment, and SummEval. Experiments show that MQAG, using models trained on SQuAD or RACE, outperforms existing evaluation methods on the majority of tasks.
arxiv情報
著者 | Potsawee Manakul,Adian Liusie,Mark J. F. Gales |
発行日 | 2023-09-07 18:20:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google