要約
大規模なテキストコレクションを自動的に要約することは、ジャーナリズム、学術研究、法的作業、その他多くの分野のアプリケーションを備えたドキュメント研究にとって貴重なツールです。
この作業では、大規模なマルチドキュメント要約(MDS)の2つのクラスのシステムを比較します:圧縮とフルテキスト。
圧縮ベースの方法は、マルチステージパイプラインを使用し、多くの場合、概要を失うことになります。
フルテキストメソッドは、長いコンテキスト推論の最近の進歩に依存することにより、ロスレスの要約を約束します。
大規模なMDでそれらのユーティリティを理解するために、それぞれが要約ごとに約100のドキュメントを含む3つのデータセットでそれらを評価しました。
私たちの実験は、多様な長いコンテキスト変圧器(LLAMA-3.1、Command-R、Jamba-1.5-mini)および圧縮方法(検索、階層的、増分)の多様なセットをカバーしています。
全体として、フルテキストと検索方法は、ほとんどの設定で最高の機能を果たすことがわかります。
顕著な情報保持パターンをさらに分析することで、圧縮ベースの方法が中間段階で強い約束を示すことを示し、さらには完全なコンテキストを上回ることを示します。
ただし、マルチステージパイプラインとグローバルコンテキストの欠如により、情報の損失を被ります。
私たちの結果は、大規模なマルチドキュメントの要約で最適なパフォーマンスを得るために、圧縮とフルテキストアプローチを組み合わせたハイブリッドアプローチを開発する必要性を強調しています。
要約(オリジナル)
Automatically summarizing large text collections is a valuable tool for document research, with applications in journalism, academic research, legal work, and many other fields. In this work, we contrast two classes of systems for large-scale multi-document summarization (MDS): compression and full-text. Compression-based methods use a multi-stage pipeline and often lead to lossy summaries. Full-text methods promise a lossless summary by relying on recent advances in long-context reasoning. To understand their utility on large-scale MDS, we evaluated them on three datasets, each containing approximately one hundred documents per summary. Our experiments cover a diverse set of long-context transformers (Llama-3.1, Command-R, Jamba-1.5-Mini) and compression methods (retrieval-augmented, hierarchical, incremental). Overall, we find that full-text and retrieval methods perform the best in most settings. With further analysis into the salient information retention patterns, we show that compression-based methods show strong promise at intermediate stages, even outperforming full-context. However, they suffer information loss due to their multi-stage pipeline and lack of global context. Our results highlight the need to develop hybrid approaches that combine compression and full-text approaches for optimal performance on large-scale multi-document summarization.
arxiv情報
著者 | Adithya Pratapa,Teruko Mitamura |
発行日 | 2025-02-10 16:15:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google