Towards Understanding Omission in Dialogue Summarization

要約

対話要約は、長い対話を簡潔な要約にまとめることを目的としており、近年大きな進歩を遂げている。しかし、既存の手法の結果は、まだ満足のいくものには程遠い。これまでの研究では、省略が要約の品質に影響を与える主要な要因であることが示されていたが、省略が要約結果にどのような影響を与えるか、省略をどのように検出するかなど、省略問題をさらに掘り下げたものはほとんどなく、省略を減らし要約品質を向上させるために重要である。さらに、省略の分析と検出は、省略ラベル(すなわち、どの対話発話が要約で省略されているか)を持つ要約データセットに依存しており、これは現在の文献では入手できない。本論文では、高品質のOmission Labels for Dialogue Summarizationを提供する、OLDSデータセットを提案する。このデータセットを分析することで、要約モデルが省略情報を復元するためのグランドトゥルースの省略ラベルを提供することで、要約品質の大きな向上が達成できることを見出し、対話要約における省略緩和のための省略検出の重要性を実証する。そこで、我々は、省略検出タスクを定式化し、我々の提案するデータセットがこのタスクの訓練と評価をうまくサポートできることを実証する。また、我々の提案するデータセットに基づく省略検出に関する研究活動を呼びかける。我々のデータセットとコードは、一般に公開されている。

要約(オリジナル)

Dialogue summarization aims to condense the lengthy dialogue into a concise summary, and has recently achieved significant progress. However, the result of existing methods is still far from satisfactory. Previous works indicated that omission is a major factor in affecting the quality of summarization, but few of them have further explored the omission problem, such as how omission affects summarization results and how to detect omission, which is critical for reducing omission and improving summarization quality. Moreover, analyzing and detecting omission relies on summarization datasets with omission labels (i.e., which dialogue utterances are omitted in the summarization), which are not available in the current literature. In this paper, we propose the OLDS dataset, which provides high-quality Omission Labels for Dialogue Summarization. By analyzing this dataset, we find that a large improvement in summarization quality can be achieved by providing ground-truth omission labels for the summarization model to recover omission information, which demonstrates the importance of omission detection for omission mitigation in dialogue summarization. Therefore, we formulate an omission detection task and demonstrate our proposed dataset can support the training and evaluation of this task well. We also call for research action on omission detection based on our proposed datasets. Our dataset and codes are publicly available.

arxiv情報

著者 Yicheng Zou,Kaitao Song,Xu Tan,Zhongkai Fu,Qi Zhang,Dongsheng Li,Tao Gui
発行日 2023-05-11 13:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク