Improving Summarization with Human Edits

要約

最近の研究では、人間によるフィードバック パラダイムを使って学習し、人間が決定した高品質のテキストを生成できることが示されています。
既存の研究では、人間によるフィードバックを使用して、一般的なドメイン抽象要約における大規模言語モデル (LLM) をトレーニングし、従来の尤度トレーニングを超える要約品質を獲得しています。
このペーパーでは、人間によるフィードバックのあまり研究されていない形式、つまり人間による編集に焦点を当てます。
私たちは、人間が編集したデータとモデルが生成したデータの両方をトレーニング ループで一緒に使用する新しい手法である Sequence Alignment (un)Likelihood Training (SALT) を提案します。
さらに、既存のトレーニング データから得られるグラウンド トゥルースの要約 (模倣編集) と、トレーニング後に得られたモデル生成の要約を使用して人間による編集をシミュレートすることを示し、高価な人間による編集データの必要性を削減します。
私たちの実験では、人間によるフィードバック探索を一般領域の要約から医療領域の要約まで拡張します。
私たちの結果は、人による編集と模倣編集による要約の品質を向上させる SALT の有効性を示しています。

要約(オリジナル)

Recent work has shown the promise of learning with human feedback paradigms to produce human-determined high-quality text. Existing works use human feedback to train large language models (LLMs) in general domain abstractive summarization and have obtained summary quality exceeding traditional likelihood training. In this paper, we focus on a less explored form of human feedback — Human Edits. We propose Sequence Alignment (un)Likelihood Training (SALT), a novel technique to use both the human-edited and model-generated data together in the training loop. In addition, we demonstrate simulating Human Edits with ground truth summaries coming from existing training data — Imitation edits, along with the model-generated summaries obtained after the training, to reduce the need for expensive human-edit data. In our experiments, we extend human feedback exploration from general domain summarization to medical domain summarization. Our results demonstrate the effectiveness of SALT to improve the summary quality with Human and Imitation Edits.

arxiv情報

著者 Zonghai Yao,Benjamin J Schloss,Sai P. Selvaraj
発行日 2023-10-09 16:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク