要約
対話要約は、その応用範囲が広いため、最近大きな注目を集めています。
ただし、対話を要約する既存の方法には限界があります。対話の固有の構造が考慮されておらず、ラベル付きデータに大きく依存しているため、新しい領域ではパフォーマンスが低下する可能性があります。
この研究では、新しい領域での対話を要約するための事前トレーニングされたエンコーダ/デコーダ モデルである DIONYSUS (対話要約の事前トレーニングにおける動的入力最適化) を提案します。
DIONYSUS を事前トレーニングするために、対話例ごとに 2 つの疑似要約を作成します。1 つは微調整された要約モデルによって生成され、もう 1 つは重要な情報を伝える対話ターンのコレクションです。
次に、さまざまな種類の対話間の情報分布の違いに基づいて、これらの疑似要約の 1 つを選択します。
この選択された疑似要約は、大規模な対話コーパスに対する自己教師ありアプローチを使用して DIONYSUS を事前トレーニングするための目的として機能します。
私たちの実験では、ゼロショット設定と少数ショット設定における ROUGE スコアが示すように、DIONYSUS が 6 つのデータセットで既存の手法よりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Dialogue summarization has recently garnered significant attention due to its wide range of applications. However, existing methods for summarizing dialogues have limitations because they do not take into account the inherent structure of dialogue and rely heavily on labeled data, which can lead to poor performance in new domains. In this work, we propose DIONYSUS (dynamic input optimization in pre-training for dialogue summarization), a pre-trained encoder-decoder model for summarizing dialogues in any new domain. To pre-train DIONYSUS, we create two pseudo summaries for each dialogue example: one is produced by a fine-tuned summarization model, and the other is a collection of dialogue turns that convey important information. We then choose one of these pseudo summaries based on the difference in information distribution across different types of dialogues. This selected pseudo summary serves as the objective for pre-training DIONYSUS using a self-supervised approach on a large dialogue corpus. Our experiments show that DIONYSUS outperforms existing methods on six datasets, as demonstrated by its ROUGE scores in zero-shot and few-shot settings.
arxiv情報
著者 | Yu Li,Baolin Peng,Pengcheng He,Michel Galley,Zhou Yu,Jianfeng Gao |
発行日 | 2023-05-26 17:29:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google