テキストの自動要約、特に見出しの生成は、ベンガル語の宗教ニュースにとって重要であるが、まだ十分に研究されていない分野である。既存の見出し生成のアプローチは、一般的に記事の内容のみに依存しており、センチメント、カテゴリー、アスペクトなどの重要な文脈的特徴を見落とす。この限界は、その有効性と全体的なパフォーマンスを著しく阻害する。本研究では、著名なバングラデシュのオンライン新聞からの宗教ニュース記事からなる新しいコーパスBeliN (Bengali Religious News)と、文脈に基づく多入力特徴フュージョン見出し生成アプローチMultiGenを導入することで、この限界に対処する。MultiGenは、BanglaT5、mBART、mT5、mT0などの変換器ベースの事前学習済み言語モデルを活用し、カテゴリ、アスペクト、センチメントなどの追加コンテキスト特徴をニュースコンテンツと統合する。この融合により、従来の手法では見落とされがちな重要な文脈情報をモデルに取り込むことができる。実験結果は、ベースラインアプローチのスコアがそれぞれ16.08と23.08であったのに対し、BLEUスコアは18.61、ROUGE-Lスコアは24.19を達成し、ニュースコンテンツのみを使用するベースラインアプローチよりもMultiGenが優れていることを示している。これらの結果は、低リソース言語のヘッドライン生成に文脈的特徴を組み込むことの重要性を強調している。言語的・文化的ギャップを埋めることで、本研究はベンガル語をはじめとする低リソース言語の自然言語処理を前進させる。再現性とさらなる探求を促進するため、データセットと実装コードはhttps://github.com/akabircs/BeliN。
Automatic text summarization, particularly headline generation, remains a critical yet underexplored area for Bengali religious news. Existing approaches to headline generation typically rely solely on the article content, overlooking crucial contextual features such as sentiment, category, and aspect. This limitation significantly hinders their effectiveness and overall performance. This study addresses this limitation by introducing a novel corpus, BeliN (Bengali Religious News) – comprising religious news articles from prominent Bangladeshi online newspapers, and MultiGen – a contextual multi-input feature fusion headline generation approach. Leveraging transformer-based pre-trained language models such as BanglaT5, mBART, mT5, and mT0, MultiGen integrates additional contextual features – including category, aspect, and sentiment – with the news content. This fusion enables the model to capture critical contextual information often overlooked by traditional methods. Experimental results demonstrate the superiority of MultiGen over the baseline approach that uses only news content, achieving a BLEU score of 18.61 and ROUGE-L score of 24.19, compared to baseline approach scores of 16.08 and 23.08, respectively. These findings underscore the importance of incorporating contextual features in headline generation for low-resource languages. By bridging linguistic and cultural gaps, this research advances natural language processing for Bengali and other underrepresented languages. To promote reproducibility and further exploration, the dataset and implementation code are publicly accessible at https://github.com/akabircs/BeliN.
著者 | Md Osama,Ashim Dey,Kawsar Ahmed,Muhammad Ashad Kabir |
発行日 | 2025-01-02 05:34:21+00:00 |
arxivサイト | arxiv_id(pdf) |