Rank Your Summaries: Enhancing Bengali Text Summarization via Ranking-based Approach

要約

効率的で正確なテキスト要約技術へのニーズが高まるにつれ、ベンガル語テキストの要約用に特別に調整された事前トレーニング済みモデルの品質と精度を向上させる手段を模索することが重要になっています。
テキスト要約タスクに関しては、自由に使用できる事前トレーニング済みの変換モデルが多数あります。
その結果、これらの事前トレーニングされた要約モデルによって生成されたさまざまなオプションの中から、特定のテキストに対して最も有益で関連性のある要約を識別することは非常に困難になります。
このペーパーは、4 つの異なる事前トレーニングされたベンガル語テキスト要約モデルの出力を比較する、シンプルだが効果的なランキングベースのアプローチを利用して、特定のテキストについて最も正確で有益な要約を特定することを目的としています。
まず、入力テキストの前処理として、特殊文字や句読点などの不要な要素を削除します。
次に、4 つの事前トレーニング済み要約モデルを利用して要約を生成し、続いてテキスト ランキング アルゴリズムを適用して最適な要約を特定します。
最終的に、最も高いランキングスコアを持つ要約が最終的な要約として選択されます。
このアプローチの有効性を評価するために、生成された概要は、BLEU、ROUGE、BERTScore、WIL、WER、METEOR などの標準的な NLG メトリクスを使用して、人間が注釈を付けた概要と比較されます。
実験結果は、事前トレーニングされた各変換モデルの強みを活用し、ランキングベースのアプローチを使用してそれらを組み合わせることで、私たちの方法論がベンガル語テキスト要約の精度と有効性を大幅に向上させることを示唆しています。

要約(オリジナル)

With the increasing need for text summarization techniques that are both efficient and accurate, it becomes crucial to explore avenues that enhance the quality and precision of pre-trained models specifically tailored for summarizing Bengali texts. When it comes to text summarization tasks, there are numerous pre-trained transformer models at one’s disposal. Consequently, it becomes quite a challenge to discern the most informative and relevant summary for a given text among the various options generated by these pre-trained summarization models. This paper aims to identify the most accurate and informative summary for a given text by utilizing a simple but effective ranking-based approach that compares the output of four different pre-trained Bengali text summarization models. The process begins by carrying out preprocessing of the input text that involves eliminating unnecessary elements such as special characters and punctuation marks. Next, we utilize four pre-trained summarization models to generate summaries, followed by applying a text ranking algorithm to identify the most suitable summary. Ultimately, the summary with the highest ranking score is chosen as the final one. To evaluate the effectiveness of this approach, the generated summaries are compared against human-annotated summaries using standard NLG metrics such as BLEU, ROUGE, BERTScore, WIL, WER, and METEOR. Experimental results suggest that by leveraging the strengths of each pre-trained transformer model and combining them using a ranking-based approach, our methodology significantly improves the accuracy and effectiveness of the Bengali text summarization.

arxiv情報

著者 G. M. Shahariar,Tonmoy Talukder,Rafin Alam Khan Sotez,Md. Tanvir Rouf Shawon
発行日 2023-07-14 15:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク