Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency

要約

大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しているにもかかわらず、依然として幻覚と呼ばれる事実の不一致の問題に悩まされています。
たとえば、LLM はソース記事から分岐するコンテンツを生成することがありますが、特に長い文書の要約では、コンテキストの最初と最後に表示される情報を抽出することを好みます。
これらの発見に触発されて、私たちは記事全体をより公平かつ忠実に処理するようLLMに強制することで、要約におけるLLMの忠実性を向上させることを提案します。
我々は、スライディング ウィンドウと自己一貫性のアイデアを活用した、新しい要約生成戦略、すなわち SliSum を提案します。
具体的には、SliSum はソース記事を重複するウィンドウに分割し、LLM を利用してウィンドウ内のコンテンツのローカル要約を生成します。
最後に、SliSum はクラスタリングと多数決アルゴリズムを使用してすべてのローカル要約を集約し、記事全体のより忠実な要約を生成します。
広範な実験により、SliSum は、追加の微調整やリソースを必要とせずに、LLaMA-2、Claude-2、GPT-3.5 などの多様な LLM の流暢性と有益性を維持しながら、短文と長文の両方のテキスト要約の忠実性を大幅に向上させることが実証されました。
さらに、SliSum が機能する理由と、SliSum のハイパーパラメーターがパフォーマンスに与える影響を調査するために、定性的および定量的な研究を実施します。

要約(オリジナル)

Despite large language models (LLMs) have demonstrated impressive performance in various tasks, they are still suffering from the factual inconsistency problem called hallucinations. For instance, LLMs occasionally generate content that diverges from source article, and prefer to extract information that appears at the beginning and end of the context, especially in long document summarization. Inspired by these findings, we propose to improve the faithfulness of LLMs in summarization by impelling them to process the entire article more fairly and faithfully. We present a novel summary generation strategy, namely SliSum, which exploits the ideas of sliding windows and self-consistency. Specifically, SliSum divides the source article into overlapping windows, and utilizes LLM to generate local summaries for the content in the windows. Finally, SliSum aggregates all local summaries using clustering and majority voting algorithm to produce more faithful summary of entire article. Extensive experiments demonstrate that SliSum significantly improves the faithfulness of diverse LLMs including LLaMA-2, Claude-2 and GPT-3.5 in both short and long text summarization, while maintaining their fluency and informativeness and without additional fine-tuning and resources. We further conduct qualitative and quantitative studies to investigate why SliSum works and impacts of hyperparameters in SliSum on performance.

arxiv情報

著者 Taiji Li,Zhi Li,Yin Zhang
発行日 2024-07-31 08:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク