Tackling Query-Focused Summarization as A Knowledge-Intensive Task: A Pilot Study

要約

クエリ中心の要約 (QFS) では、関連するドキュメントのセットを使用して、クエリを指定して要約を生成する必要があります。
ただし、このような関連ドキュメントには手動で注釈を付ける必要があるため、現実的なシナリオではすぐに利用できません。
この制限に対処するために、私たちは関連文書にアクセスせずに、知識集約型 (KI) タスクとして QFS タスクに取り組みます。
代わりに、これらの文書は大規模な知識コーパスに存在し、最初に検索する必要があると想定します。
この新しい設定を調査するために、既存の QFS データセットを適応させて新しいデータセット (KI-QFS) を構築します。
このデータセットでは、クエリに答えるにはナレッジ コーパスからドキュメントを検索する必要があります。
3 つの異なる知識コーパスを構築し、さらに検索評価を可能にする関連性アノテーションを提供します。
最後に、最先端の QFS モデルと検索強化モデルを使用してデータセットをベンチマークします。
実験結果は、元の QFS タスクと比較して、KI-QFS では QFS モデルのパフォーマンスが大幅に低いことを示しており、知識集約型の設定ははるかに難しく、改善の余地が大きいことを示しています。
私たちは、私たちの調査が、より現実的なシナリオで QFS に対処するためのさらなる研究のきっかけとなると信じています。

要約(オリジナル)

Query-focused summarization (QFS) requires generating a summary given a query using a set of relevant documents. However, such relevant documents should be annotated manually and thus are not readily available in realistic scenarios. To address this limitation, we tackle the QFS task as a knowledge-intensive (KI) task without access to any relevant documents. Instead, we assume that these documents are present in a large-scale knowledge corpus and should be retrieved first. To explore this new setting, we build a new dataset (KI-QFS) by adapting existing QFS datasets. In this dataset, answering the query requires document retrieval from a knowledge corpus. We construct three different knowledge corpora, and we further provide relevance annotations to enable retrieval evaluation. Finally, we benchmark the dataset with state-of-the-art QFS models and retrieval-enhanced models. The experimental results demonstrate that QFS models perform significantly worse on KI-QFS compared to the original QFS task, indicating that the knowledge-intensive setting is much more challenging and offers substantial room for improvement. We believe that our investigation will inspire further research into addressing QFS in more realistic scenarios.

arxiv情報

著者 Weijia Zhang,Svitlana Vakulenko,Thilina Rajapakse,Yumo Xu,Evangelos Kanoulas
発行日 2023-07-31 12:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク