要約
マルチドキュメント要約(MDS)の分野では、変圧器ベースのモデルは驚くべき成功を示していますが、入力長の制限があります。
現在の方法は、検索プロセスの後に切り捨てを適用して、コンテキストの長さに適合します。
ただし、それらは手動で巧みに作られたクエリに大きく依存しています。これは、MDSのドキュメントセットごとに作成するのは実用的ではありません。
さらに、これらの方法は、粗い粒度で情報を取得し、無関係なコンテンツを含めることにつながります。
これらの問題に対処するために、クエリの選択とドキュメントのランキングを統合し、統一されたプロセスに短縮する新しい検索ベースのフレームワークを提案します。
私たちのアプローチは、入力ドキュメントから最も顕著な基本談話ユニット(EDU)を特定し、それらを潜在クエリとして利用しています。
これらのクエリは、関連性スコアを計算することにより、ドキュメントのランキングをガイドします。
従来の切り捨ての代わりに、私たちのアプローチは、コンテキストの長さに適合するように無関係なEDUを除外し、要約のために重要な情報のみが保持されるようにします。
複数のMDSデータセットでのフレームワークを評価し、ルージュメトリックの一貫した改善を実証しながら、多様なモデルアーキテクチャ全体のスケーラビリティと柔軟性を確認します。
さらに、詳細な分析を通じてその有効性を検証し、適切なクエリを動的に選択し、関連スコアに基づいてドキュメントを正確にランク付けする能力を強調します。
これらの結果は、私たちのフレームワークがコンテキストの長さの制約に効果的に対処し、MDSの堅牢で信頼できるソリューションとして確立されることを示しています。
要約(オリジナル)
In the field of multi-document summarization (MDS), transformer-based models have demonstrated remarkable success, yet they suffer an input length limitation. Current methods apply truncation after the retrieval process to fit the context length; however, they heavily depend on manually well-crafted queries, which are impractical to create for each document set for MDS. Additionally, these methods retrieve information at a coarse granularity, leading to the inclusion of irrelevant content. To address these issues, we propose a novel retrieval-based framework that integrates query selection and document ranking and shortening into a unified process. Our approach identifies the most salient elementary discourse units (EDUs) from input documents and utilizes them as latent queries. These queries guide the document ranking by calculating relevance scores. Instead of traditional truncation, our approach filters out irrelevant EDUs to fit the context length, ensuring that only critical information is preserved for summarization. We evaluate our framework on multiple MDS datasets, demonstrating consistent improvements in ROUGE metrics while confirming its scalability and flexibility across diverse model architectures. Additionally, we validate its effectiveness through an in-depth analysis, emphasizing its ability to dynamically select appropriate queries and accurately rank documents based on their relevance scores. These results demonstrate that our framework effectively addresses context-length constraints, establishing it as a robust and reliable solution for MDS.
arxiv情報
著者 | Shiyin Tan,Jaeeon Park,Dongyuan Li,Renhe Jiang,Manabu Okumura |
発行日 | 2025-04-23 13:41:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google