Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework

要約

対話の要約には事実が重要です。
モデルが生成した要約の事実誤り訂正 (FEC) は、事実性を向上させる 1 つの方法です。
事実の指標に依存する現在の FEC 評価は、信頼性が低く、詳細が十分ではありません。
この問題に対処するために、私たちは初めて、4000 項目を含む対話要約用の FEC データセットに手動でアノテーションを付け、さまざまなエラー カテゴリで FEC モデルのパフォーマンスを自動的に評価する参照補正に基づくきめ細かい評価フレームワークである FERRANTI を提案しました。
この評価フレームワークを使用して、さまざまな設定の下で FEC アプローチで十分な実験を実施し、最適なトレーニング モードと、さまざまな事実誤認カテゴリに対する既存のアプローチのパフォーマンスの大きな違いを見つけます。

要約(オリジナル)

Factuality is important to dialogue summarization. Factual error correction (FEC) of model-generated summaries is one way to improve factuality. Current FEC evaluation that relies on factuality metrics is not reliable and detailed enough. To address this problem, we are the first to manually annotate a FEC dataset for dialogue summarization containing 4000 items and propose FERRANTI, a fine-grained evaluation framework based on reference correction that automatically evaluates the performance of FEC models on different error categories. Using this evaluation framework, we conduct sufficient experiments with FEC approaches under a variety of settings and find the best training modes and significant differences in the performance of the existing approaches on different factual error categories.

arxiv情報

著者 Mingqi Gao,Xiaojun Wan,Jia Su,Zhefeng Wang,Baoxing Huai
発行日 2023-06-08 11:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク