BRIDO: Bringing Democratic Order to Abstractive Summarization

要約

幻覚とは、大規模な言語モデル(LLM)から生成された不正確で、無関係で、一貫性のないテキストを指します。
LLMはさまざまなタスクで大きな約束を示していますが、幻覚の問題は依然として多くの実用的な用途にとって大きな課題です。
この論文では、暴露バイアスを緩和することにより、抽象的なテキストの要約における幻覚の問題に取り組みます。
露出バイアスの緩和を対象とした既存のモデル、つまりBrioは、ルージュスコアのより良い要約品質を目指しています。
同様の露出バイアス緩和戦略を使用するが、幻覚が少ない目標を持つモデルを提案します。
候補者の出力のグループの中で、幻覚のある出力のグループは、グループ全体の少数派を構成すると推測します。
つまり、他の人との類似性が低い候補者は、幻覚コンテンツを含む可能性が高くなります。
私たちの方法はこの側面を使用し、対照的な学習を利用して、候補者を高い潜在性のルージュスコアで奨励します。
XSUMおよびCNN/DMの要約データセットで実験を行い、私たちの方法では、それぞれBrioの一貫性G平均スコアで6.25%と3.82%の改善が示されました。

要約(オリジナル)

Hallucination refers to the inaccurate, irrelevant, and inconsistent text generated from large language models (LLMs). While the LLMs have shown great promise in a variety of tasks, the issue of hallucination still remains a major challenge for many practical uses. In this paper, we tackle the issue of hallucination in abstract text summarization by mitigating exposure bias. Existing models targeted for exposure bias mitigation, namely BRIO, aim for better summarization quality in the ROUGE score. We propose a model that uses a similar exposure bias mitigation strategy but with a goal that is aligned with less hallucination. We conjecture that among a group of candidate outputs, ones with hallucinations will comprise the minority of the whole group. That is, candidates with less similarity with others will have a higher chance of containing hallucinated content. Our method uses this aspect and utilizes contrastive learning, incentivizing candidates with high inter-candidate ROUGE scores. We performed experiments on the XSum and CNN/DM summarization datasets, and our method showed 6.25% and 3.82% improvement, respectively, on the consistency G-Eval score over BRIO.

arxiv情報

著者 Junhyun Lee,Harshith Goka,Hyeonmok Ko
発行日 2025-02-25 16:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク