要約
Multi-Document Summarization (MDS) の課題に取り組む中で、抽出的要約技術と抽象的要約技術の両方にわたる多数の方法が提案されています。
ただし、それぞれのアプローチには独自の制限があるため、どちらか一方のみに依存するのは効果的ではありません。
新しく有望な戦略には、抽出的要約手法と抽象的要約手法の相乗的融合が含まれます。
この分野における研究は数多くあるにもかかわらず、特にベトナム語言語処理の文脈において、組み合わせた方法論に関する研究は依然として不足しています。
このペーパーでは、抽出技術と抽象技術を統合する 2 コンポーネントのパイプライン アーキテクチャを活用した、新しいベトナム MDS フレームワークを紹介します。
最初のコンポーネントは抽出アプローチを採用して、各文書内の重要な文を特定します。
これは、シャムおよびトリプレット ネットワーク構造を使用して意味的に意味のあるフレーズ埋め込みを導出する、事前トレーニングされた BERT ネットワークの修正によって実現されます。
2 番目のコンポーネントは、抽象的な要約に VBD-LLaMA2-7B-50b モデルを利用し、最終的に最終的な要約ドキュメントを生成します。
私たちが提案したフレームワークは、VN-MDS データセットで 39.6% の ROUGE-2 スコアを達成し、最先端のベースラインを上回る良好なパフォーマンスを示しています。
要約(オリジナル)
In tackling the challenge of Multi-Document Summarization (MDS), numerous methods have been proposed, spanning both extractive and abstractive summarization techniques. However, each approach has its own limitations, making it less effective to rely solely on either one. An emerging and promising strategy involves a synergistic fusion of extractive and abstractive summarization methods. Despite the plethora of studies in this domain, research on the combined methodology remains scarce, particularly in the context of Vietnamese language processing. This paper presents a novel Vietnamese MDS framework leveraging a two-component pipeline architecture that integrates extractive and abstractive techniques. The first component employs an extractive approach to identify key sentences within each document. This is achieved by a modification of the pre-trained BERT network, which derives semantically meaningful phrase embeddings using siamese and triplet network structures. The second component utilizes the VBD-LLaMA2-7B-50b model for abstractive summarization, ultimately generating the final summary document. Our proposed framework demonstrates a positive performance, attaining ROUGE-2 scores of 39.6% on the VN-MDS dataset and outperforming the state-of-the-art baselines.
arxiv情報
著者 | Tuan-Cuong Vuong,Trang Mai Xuan,Thien Van Luong |
発行日 | 2024-09-18 16:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google