要約
人間の要約行動を模倣して抽象的な要約モデルをトレーニングするための効果的なパラダイムとして、逆強化学習 (IRL) を紹介します。
私たちの IRL モデルは、要約のための一連の重要なサブ報酬を使用して報酬関数を推定し、同時にポリシー ネットワークを最適化します。
異なるドメイン (CNN/DailyMail および WikiHow) およびさまざまなモデル サイズ (BART ベースおよび BART-large) のデータセットにわたる実験結果は、要約に関して、MLE および RL ベースラインよりも提案した IRL モデルの優位性を示しています。
結果として得られる概要は、人間が作成したゴールドリファレンスとの類似性が高く、ROUGE、カバレッジ、新規性、圧縮率、事実性、人間による評価などの指標で MLE および RL ベースラインを上回っています。
要約(オリジナル)
We introduce inverse reinforcement learning (IRL) as an effective paradigm for training abstractive summarization models, imitating human summarization behaviors. Our IRL model estimates the reward function using a suite of important sub-rewards for summarization and concurrently optimizes the policy network. Experimental results across datasets in different domains (CNN/DailyMail and WikiHow) and various model sizes (BART-base and BART-large) demonstrate the superiority of our proposed IRL model for summarization over MLE and RL baselines. The resulting summaries exhibit greater similarity to human-crafted gold references, outperforming MLE and RL baselines on metrics such as ROUGE, coverage, novelty, compression ratio, factuality, and human evaluations.
arxiv情報
著者 | Yu Fu,Deyi Xiong,Yue Dong |
発行日 | 2023-12-05 01:06:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google