Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language

要約

テキストは、世界中で最も顕著なコミュニケーション形態として際立っている。電子メールを送信したり、ソーシャルメディアに何かを書き込んだりするために、個人はテキスト全体を書くのにかなりの時間を費やしており、この現代では時間がかかります。単語予測や文章補完は、テキスト情報をより簡単で便利にするために、バングラ語に適しており、適切であろう。本稿では、バングラ語の次単語予測とバングラ語の文生成を効果的に処理するBi-LSTMモデルを導入することで、バングラ言語処理の範囲を拡大し、その汎用性と潜在的な影響力を示す。我々は、次の単語を予測し、文を完成させる新しいBi-LSTMモデルを提案した。bdnews24、BBC News Bangla、Prothom Aloなどの様々なニュースポータルからコーパスデータセットを構築した。提案アプローチは単語予測において優れた結果を達成し、4-gramと5-gramの単語予測の両方で99%の精度を達成した。また、既存の手法と比較して、 単グラム、2グラム、3グラムの単語予測において、それぞれ35%、75%、 95%の精度を達成し、大幅な改善を示した。

要約(オリジナル)

Texting stands out as the most prominent form of communication worldwide. Individual spend significant amount of time writing whole texts to send emails or write something on social media, which is time consuming in this modern era. Word prediction and sentence completion will be suitable and appropriate in the Bangla language to make textual information easier and more convenient. This paper expands the scope of Bangla language processing by introducing a Bi-LSTM model that effectively handles Bangla next-word prediction and Bangla sentence generation, demonstrating its versatility and potential impact. We proposed a new Bi-LSTM model to predict a following word and complete a sentence. We constructed a corpus dataset from various news portals, including bdnews24, BBC News Bangla, and Prothom Alo. The proposed approach achieved superior results in word prediction, reaching 99\% accuracy for both 4-gram and 5-gram word predictions. Moreover, it demonstrated significant improvement over existing methods, achieving 35\%, 75\%, and 95\% accuracy for uni-gram, bi-gram, and tri-gram word prediction, respectively

arxiv情報

著者 Md Robiul Islam,Al Amin,Aniqua Nusrat Zereen
発行日 2024-05-03 06:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク