Aspect-Based Summarization with Self-Aspect Retrieval Enhanced Generation

要約

アスペクトベースの要約は、特定の側面に合わせて調整された要約を生成することを目的としており、リソースの制約と従来の要約アプローチの限られた一般化可能性に対処します。
最近、大規模な言語モデルは、トレーニングを必要とせずにこのタスクで約束を示しています。
しかし、彼らは迅速なエンジニアリングに過度に依存しており、特にコンテキスト内の学習に伴い、トークンの限界と幻覚の課題に直面しています。
これらの課題に対処するために、この論文では、アスペクトベースの要約のための新しいフレームワークを提案します。自己補助検索強化概要生成。
コンテキスト内学習のみに依存するのではなく、側面を与えられて、埋め込み駆動型の検索メカニズムを使用して、その関連するテキストセグメントを特定します。
このアプローチは、適切なコンテンツを抽出しながら、不必要な詳細を避け、それによってトークン制限の課題を軽減します。
さらに、私たちのフレームワークは、テキストの無関係な部分を削除し、モデルが与えられた側面に基づいて厳密に出力を生成することを保証することにより、トークンの使用を最適化します。
ベンチマークデータセットでの広範な実験により、フレームワークが優れたパフォーマンスを達成するだけでなく、トークンの制限問題を効果的に軽減することを実証します。

要約(オリジナル)

Aspect-based summarization aims to generate summaries tailored to specific aspects, addressing the resource constraints and limited generalizability of traditional summarization approaches. Recently, large language models have shown promise in this task without the need for training. However, they rely excessively on prompt engineering and face token limits and hallucination challenges, especially with in-context learning. To address these challenges, in this paper, we propose a novel framework for aspect-based summarization: Self-Aspect Retrieval Enhanced Summary Generation. Rather than relying solely on in-context learning, given an aspect, we employ an embedding-driven retrieval mechanism to identify its relevant text segments. This approach extracts the pertinent content while avoiding unnecessary details, thereby mitigating the challenge of token limits. Moreover, our framework optimizes token usage by deleting unrelated parts of the text and ensuring that the model generates output strictly based on the given aspect. With extensive experiments on benchmark datasets, we demonstrate that our framework not only achieves superior performance but also effectively mitigates the token limitation problem.

arxiv情報

著者 Yichao Feng,Shuai Zhao,Yueqiu Li,Luwei Xiao,Xiaobao Wu,Anh Tuan Luu
発行日 2025-04-17 16:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク