LLM Based Multi-Document Summarization Exploiting Main-Event Biased Monotone Submodular Content Extraction

要約

複数文書の要約は、その固有の主観的なバイアスにより困難な作業であり、DUC-2004 参照要約の中でアノテーター間 ROUGE-1 スコアが 0.4 と低いことで強調されています。
この研究では、関連するニュース文書群の主要な出来事に焦点を当て、それを十分な文脈とともに一貫して提示することにより、ニュース要約の客観性を高めることを目指しています。
私たちの主な目的は、主要なイベントを簡潔に報告し、概要が客観的かつ有益であることを保証することです。
これを達成するために、コンテンツ選択にメインイベントバイアスのモノトーンサブモジュール関数を組み込んだ抽出リライトアプローチを採用します。
これにより、主要なイベントに関連する最も重要な情報を文書クラスターから抽出できるようになります。
一貫性を確保するために、抽出されたコンテンツを一貫したテキストに書き換えるために、微調整された言語モデル (LLM) が利用されます。
客観的な指標と人間の評価者を使用した評価により、潜在的なベースラインを上回り、コンテンツの網羅性、一貫性、情報提供力の両方において優れていることが実証され、当社のアプローチの有効性が確認されました。

要約(オリジナル)

Multi-document summarization is a challenging task due to its inherent subjective bias, highlighted by the low inter-annotator ROUGE-1 score of 0.4 among DUC-2004 reference summaries. In this work, we aim to enhance the objectivity of news summarization by focusing on the main event of a group of related news documents and presenting it coherently with sufficient context. Our primary objective is to succinctly report the main event, ensuring that the summary remains objective and informative. To achieve this, we employ an extract-rewrite approach that incorporates a main-event biased monotone-submodular function for content selection. This enables us to extract the most crucial information related to the main event from the document cluster. To ensure coherence, we utilize a fine-tuned Language Model (LLM) for rewriting the extracted content into a coherent text. The evaluation using objective metrics and human evaluators confirms the effectiveness of our approach, as it surpasses potential baselines, demonstrating excellence in both content coverage, coherence, and informativeness.

arxiv情報

著者 Litton J Kurisinkel,Nancy F. Chen
発行日 2023-10-05 09:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク