AWESOME: GPU Memory-constrained Long Document Summarization using Memory Mechanism and Global Salient Content

要約

長い文書要約システムは、長くて専門用語が多いテキストを扱う分野では不可欠ですが、コンピューティング リソースが限られている研究者や開発者にとっては大きな課題となります。
既存のソリューションは主に、効率的な注意や分割統治戦略に重点を置いています。
前者は理論的な時間計算量を軽減しますが、依然としてメモリを大量に消費します。
後者の方法では全体的なコンテキストが犠牲になり、情報が少なく一貫性のない要約が得られます。
この作業は、グローバル コンテキストを維持しながら、分割統治法のメモリ効率の高い性質を活用することを目的としています。
具体的には、私たちのフレームワーク AWESOME は 2 つの新しいメカニズムを使用します。 (1) 外部メモリ メカニズムは、以前にエンコードされた文書セグメントとそれに対応する要約を追跡し、グローバルな文書の理解と要約の一貫性を強化します。
(2) 全体的に顕著なコンテンツは、その要約をサポートするために各文書セグメントを強化するために事前にさらに特定されます。
政府報告書、トランスクリプト、科学論文、小説など、さまざまなジャンルのテキストを対象とした広範な実験により、AWESOME は、GPU メモリの占有面積が小さいにもかかわらず、長い文書の競合ベースラインよりも情報提供性、忠実性、一貫性が向上した要約を作成できることがわかりました。

要約(オリジナル)

Long document summarization systems are critical for domains with lengthy and jargonladen text, yet they present significant challenges to researchers and developers with limited computing resources. Existing solutions mainly focus on efficient attentions or divide-and-conquer strategies. The former reduces theoretical time complexity, but is still memory-heavy. The latter methods sacrifice global context, leading to uninformative and incoherent summaries. This work aims to leverage the memory-efficient nature of divide-and-conquer methods while preserving global context. Concretely, our framework AWESOME uses two novel mechanisms: (1) External memory mechanisms track previously encoded document segments and their corresponding summaries, to enhance global document understanding and summary coherence. (2) Global salient content is further identified beforehand to augment each document segment to support its summarization. Extensive experiments on diverse genres of text, including government reports, transcripts, scientific papers, and novels, show that AWESOME produces summaries with improved informativeness, faithfulness, and coherence than competitive baselines on longer documents, while having a smaller GPU memory footprint.

arxiv情報

著者 Shuyang Cao,Lu Wang
発行日 2023-11-16 11:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク