BERT-VBD: Vietnamese Multi-Document Summarization Framework


Multi-Document Summarization (MDS) の課題に取り組む中で、抽出的要約技術と抽象的要約技術の両方にわたる多数の方法が提案されています。
このペーパーでは、抽出技術と抽象技術を統合する 2 コンポーネントのパイプライン アーキテクチャを活用した、新しいベトナム MDS フレームワークを紹介します。
これは、シャムおよびトリプレット ネットワーク構造を使用して意味的に意味のあるフレーズ埋め込みを導出する、事前トレーニングされた BERT ネットワークの修正によって実現されます。
2 番目のコンポーネントは、抽象的な要約に VBD-LLaMA2-7B-50b モデルを利用し、最終的に最終的な要約ドキュメントを生成します。
私たちが提案したフレームワークは、VN-MDS データセットで 39.6% の ROUGE-2 スコアを達成し、最先端のベースラインを上回る良好なパフォーマンスを示しています。


In tackling the challenge of Multi-Document Summarization (MDS), numerous methods have been proposed, spanning both extractive and abstractive summarization techniques. However, each approach has its own limitations, making it less effective to rely solely on either one. An emerging and promising strategy involves a synergistic fusion of extractive and abstractive summarization methods. Despite the plethora of studies in this domain, research on the combined methodology remains scarce, particularly in the context of Vietnamese language processing. This paper presents a novel Vietnamese MDS framework leveraging a two-component pipeline architecture that integrates extractive and abstractive techniques. The first component employs an extractive approach to identify key sentences within each document. This is achieved by a modification of the pre-trained BERT network, which derives semantically meaningful phrase embeddings using siamese and triplet network structures. The second component utilizes the VBD-LLaMA2-7B-50b model for abstractive summarization, ultimately generating the final summary document. Our proposed framework demonstrates a positive performance, attaining ROUGE-2 scores of 39.6% on the VN-MDS dataset and outperforming the state-of-the-art baselines.


著者 Tuan-Cuong Vuong,Trang Mai Xuan,Thien Van Luong
発行日 2024-09-18 16:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク