要約
最近の研究では、人間のアノテーターは、一般的に使用される要約データセット内の元の参照要約よりも、大規模言語モデル (LLM) によって生成された要約の方が好まれることがわかっています。
したがって、CNN/DailyMail データセットなどの一般的に使用される要約データセットの参照またはゴールドスタンダードのオラクルとして LLM を考慮する、テキスト要約モデルの新しい学習パラダイムを調査します。
新しい学習設定に合わせた標準的な実践方法を検討するために、要約品質評価者として LLM を使用した対照学習に基づく新しいトレーニング方法を提案します。
この報酬ベースのトレーニング方法では、要約品質評価に LLM を利用する 2 つの異なる方法、つまり GPTScore と GPTRank を調査します。
CNN/DailyMail データセットでの実験では、LLM 自体によって評価されるように、提案された方法でトレーニングされた小規模な要約モデルは、参照 LLM と同等かそれを上回るパフォーマンスを達成できることが実証されました。
これは、標準の最尤推定 (MLE) トレーニング方法よりもモデルのパフォーマンスを向上させる上で、私たちが提案するパラダイムの有効性と、LLM へのアクセスに必要な予算が少ないためのその効率性を強調しています。
今後の研究を容易にするために、トレーニング スクリプト、モデル出力、LLM ベースの評価結果をリリースします。
要約(オリジナル)
Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we investigate a new learning paradigm of text summarization models that considers the LLMs as the reference or the gold-standard oracle on commonly used summarization datasets such as the CNN/DailyMail dataset. To examine the standard practices that are aligned with the new learning setting, we propose a novel training method that is based on contrastive learning with LLMs as a summarization quality evaluator. For this reward-based training method, we investigate two different methods of utilizing LLMs for summary quality evaluation, namely GPTScore and GPTRank. Our experiments on the CNN/DailyMail dataset demonstrate that smaller summarization models trained by our proposed method can achieve performance equal to or surpass that of the reference LLMs, as evaluated by the LLMs themselves. This underscores the efficacy of our proposed paradigm in enhancing model performance over the standard maximum likelihood estimation (MLE) training method, and its efficiency since it only requires a small budget to access the LLMs. We release the training scripts, model outputs, and LLM-based evaluation results to facilitate future studies.
arxiv情報
著者 | Yixin Liu,Alexander R. Fabbri,Pengfei Liu,Dragomir Radev,Arman Cohan |
発行日 | 2023-05-23 16:56:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google