LBMT team at VLSP2022-Abmusu: Hybrid method with text correlation and generative models for Vietnamese multi-document summarization

要約

タイトル:VLSP2022-AbmusuにおけるLBMTチーム:ベトナム語の複数文書要約のためのテキスト相関と生成モデルのハイブリッド手法

要約:

– 複数文書要約は、要約はすべての文書から最も重要な情報を説明するだけでなく、文書の一貫した解釈を提供する必要があるため、難しい課題である。
– 本論文では、ラスター類似度に基づく複数文書要約の方法を提案している。
– 抽出手法では、改良されたPageRankアルゴリズムとテキスト相関考慮メカニズムに基づくハイブリッドモデルを使用している。
– 各クラスターから最も重要な文を選択して要約を生成した後、BARTphoとViT5を適用して抽象モデルを構築している。
– この研究では、抽出手法と抽象手法の両方が考慮されている。
– 提案された手法はVLSP 2022競技において競争力のある結果を達成している。

要約(オリジナル)

Multi-document summarization is challenging because the summaries should not only describe the most important information from all documents but also provide a coherent interpretation of the documents. This paper proposes a method for multi-document summarization based on cluster similarity. In the extractive method we use hybrid model based on a modified version of the PageRank algorithm and a text correlation considerations mechanism. After generating summaries by selecting the most important sentences from each cluster, we apply BARTpho and ViT5 to construct the abstractive models. Both extractive and abstractive approaches were considered in this study. The proposed method achieves competitive results in VLSP 2022 competition.

arxiv情報

著者 Tan-Minh Nguyen,Thai-Binh Nguyen,Hoang-Trung Nguyen,Hai-Long Nguyen,Tam Doan Thanh,Ha-Thanh Nguyen,Thi-Hai-Yen Vuong
発行日 2023-04-11 13:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク