A Novel Word Pair-based Gaussian Sentence Similarity Algorithm For Bengali Extractive Text Summarization

要約

抽出テキスト要約は、重要な情報を失うことなく、大きなテキストの最も代表的な部分を選択するプロセスです。
ベンガル語でテキストを抽出して要約する最近の試みは、TF-IDF などの統計手法に依存するか、単語平均手法などの単純な文の類似性測定を使用していました。
これらの戦略はすべて、意味関係を正しく表現することに問題があります。
ここでは、2 つの文間の意味関係を計算するための新しい単語ペアベースのガウス文類似性 (WGSS) アルゴリズムを提案します。
WGSS は、単語埋め込みベクトルの個々のガウス類似度値の幾何平均を取得して、文間の意味関係を取得します。
2 つの文を単語ごとに比較するため、単語平均法が直面する文表現の問題が修正されます。
要約プロセスでは、スペクトル クラスタリング アルゴリズムを使用して、意味的に類似した文をクラスターにグループ化することにより、重要な文を抽出します。
クラスタリング後、TF-IDF ランキングを使用して各クラスターから最良の文を選択します。
提案された手法は 4 つの異なるデータセットを使用して検証され、平均 ROUGE スコア (2.5% ~ 95.4% の範囲) で他の最近のモデルを 43.2% 上回りました。
また、他の低リソース言語、つまりトルコ語、マラーティー語、ヒンディー語でも実験されており、提案された方法がこれらの言語に対してベンガル語と同様に機能することがわかりました。
さらに、250 件の記事と各記事の 1 対の要約を含む、新しい高品質のベンガル語データセットが厳選されています。
私たちは、この研究がベンガル語自然言語処理 (NLP) 研究への重要な追加であり、他の低リソース言語にも簡単に拡張できると信じています。
提案したモデルの実装とデータを https://github.com/FMOpee/WGSS で公開しました。

要約(オリジナル)

Extractive Text Summarization is the process of selecting the most representative parts of a larger text without losing any key information. Recent attempts at extractive text summarization in Bengali, either relied on statistical techniques like TF-IDF or used naive sentence similarity measures like the word averaging technique. All of these strategies suffer from expressing semantic relationships correctly. Here, we propose a novel Word pair-based Gaussian Sentence Similarity (WGSS) algorithm for calculating the semantic relation between two sentences. WGSS takes the geometric means of individual Gaussian similarity values of word embedding vectors to get the semantic relationship between sentences. It compares two sentences on a word-to-word basis which rectifies the sentence representation problem faced by the word averaging method. The summarization process extracts key sentences by grouping semantically similar sentences into clusters using the Spectral Clustering algorithm. After clustering, we use TF-IDF ranking to pick the best sentence from each cluster. The proposed method is validated using four different datasets, and it outperformed other recent models by 43.2% on average ROUGE scores (ranging from 2.5% to 95.4%). It is also experimented on other low-resource languages i.e. Turkish, Marathi, and Hindi language, where we find that the proposed method performs as similar as Bengali for these languages. In addition, a new high-quality Bengali dataset is curated which contains 250 articles and a pair of summaries for each of them. We believe this research is a crucial addition to Bengali Natural Language Processing (NLP) research and it can easily be extended into other low-resource languages. We made the implementation of the proposed model and data public on https://github.com/FMOpee/WGSS.

arxiv情報

著者 Fahim Morshed,Md. Abdur Rahman,Sumon Ahmed
発行日 2024-11-27 17:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク