Improving Factual Consistency of News Summarization by Contrastive Preference Optimization

要約

大規模な言語モデル(LLMS)によって行われたニュース要約の最近の進展にもかかわらず、テキスト生成で「幻覚」として知られるオリジナルの記事と実際に矛盾する要約を生成することがよくあります。
以前の小さなモデル(BART、T5など)とは異なり、現在のLLMは愚かな間違いが少なくなりますが、原因と結果を課したり、誤った詳細を追加したり、過剰に一般化するなど、より洗練された間違いを犯します。これらの幻覚は、従来の方法で検出するのが難しいです。
テキスト要約の事実上の一貫性を改善するための大きな課題。
このホワイトペーパーでは、忠実で偽のコンテンツを生成するためにLLMSの傾向を解くために、対照的な好みの最適化(CPO)を提案します。
さらに、2種類の傾向を区別する能力を向上させるために、調査ベースの特定のトレーニング方法を採用します。
このようにして、LLMSは命令をより正確に実行し、幻覚の認識を強化することができます。
実験結果は、CPOがLLMSに基づく要約の信頼性を大幅に改善することを示しています。

要約(オリジナル)

Despite the recent progress in news summarization made by large language models (LLMs), they often generate summaries that are factually inconsistent with original articles, known as ‘hallucinations’ in text generation. Unlike previous small models (e.g., BART, T5), current LLMs make fewer silly mistakes but more sophisticated ones, such as imposing cause and effect, adding false details, overgeneralizing, etc. These hallucinations are challenging to detect through traditional methods, which poses great challenges for improving the factual consistency of text summarization. In this paper, we propose Contrastive Preference Optimization (CPO) to disentangle the LLMs’ propensities to generate faithful and fake content. Furthermore, we adopt a probing-based specific training method to improve their capacity of distinguishing two types of propensities. In this way, LLMs can execute the instructions more accurately and have enhanced perception of hallucinations. Experimental results show that CPO significantly improves the reliability of summarization based on LLMs.

arxiv情報

著者 Huawen Feng,Yan Fan,Xiong Liu,Ting-En Lin,Zekun Yao,Yuchuan Wu,Fei Huang,Yongbin Li,Qianli Ma
発行日 2025-02-13 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク