BSpell: A CNN-Blended BERT Based Bangla Spell Checker

要約

バングラ語のタイピングは主に英語キーボードを使用して実行され、複合文字や同様に発音される文字が存在するため、非常に間違いが発生する可能性があります。
スペルミスのある単語を修正するには、単語の入力パターンと単語の使用状況を理解する必要があります。
BSpell という名前の特殊な BERT モデルがこの論文で提案されており、文レベルでの単語ごとの修正を対象としています。
BSpell には、特殊な補助損失とともに、SemanticNet という名前のエンドツーエンドのトレーニング可能な CNN サブモデルが含まれています。
これにより、BSpell は、スペルミスがある場合でも、高度に語形変化したバングラ語の語彙に特化することができます。
さらに、単語レベルと文字レベルのマスキングを組み合わせたハイブリッド事前トレーニング スキームが BSpell に対して提案されています。
2 つのバングラ語と 1 つのヒンディー語のスペル修正データセットを比較すると、私たちが提案したアプローチの優位性がわかります。
BSpell は、GitHub 経由でバングラ語のスペル チェック ツールとして利用できます: https://github.com/Hasiburshanto/Bangla-Spell-Checker

要約(オリジナル)

Bangla typing is mostly performed using English keyboard and can be highly erroneous due to the presence of compound and similarly pronounced letters. Spelling correction of a misspelled word requires understanding of word typing pattern as well as the context of the word usage. A specialized BERT model named BSpell has been proposed in this paper targeted towards word for word correction in sentence level. BSpell contains an end-to-end trainable CNN sub-model named SemanticNet along with specialized auxiliary loss. This allows BSpell to specialize in highly inflected Bangla vocabulary in the presence of spelling errors. Furthermore, a hybrid pretraining scheme has been proposed for BSpell that combines word level and character level masking. Comparison on two Bangla and one Hindi spelling correction dataset shows the superiority of our proposed approach. BSpell is available as a Bangla spell checking tool via GitHub: https://github.com/Hasiburshanto/Bangla-Spell-Checker

arxiv情報

著者 Chowdhury Rafeed Rahman,MD. Hasibur Rahman,Samiha Zakir,Mohammad Rafsan,Mohammed Eunus Ali
発行日 2024-01-01 01:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク