Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification

要約

バングラ語は、世界で 7 番目に話者が多い言語ですが、この言語の自動文法チェッカーの開発は十分に研究されていません。
バングラ語の文法エラー検出は、文法、句読点、またはスペルのエラーを含むバングラ語テキストの部分文字列を検出するタスクであり、自動バングラ語タイピング アシスタントの開発にとって重要です。
私たちのアプローチには、タスクをトークン分類問題として分解し、最先端のトランスフォーマーベースのモデルを利用することが含まれます。
最後に、これらのモデルの出力を結合し、ルールベースの後処理を適用して、より信頼性が高く包括的な結果を生成します。
私たちのシステムは、さまざまなソースからの 25,000 を超えるテキストで構成されるデータセットに基づいて評価されます。
私たちの最良のモデルは、レーベンシュタイン距離スコア 1.04 を達成しています。
最後に、システムのさまざまなコンポーネントの詳細な分析を提供します。

要約(オリジナル)

Bangla is the seventh most spoken language by a total number of speakers in the world, and yet the development of an automated grammar checker in this language is an understudied problem. Bangla grammatical error detection is a task of detecting sub-strings of a Bangla text that contain grammatical, punctuation, or spelling errors, which is crucial for developing an automated Bangla typing assistant. Our approach involves breaking down the task as a token classification problem and utilizing state-of-the-art transformer-based models. Finally, we combine the output of these models and apply rule-based post-processing to generate a more reliable and comprehensive result. Our system is evaluated on a dataset consisting of over 25,000 texts from various sources. Our best model achieves a Levenshtein distance score of 1.04. Finally, we provide a detailed analysis of different components of our system.

arxiv情報

著者 Shayekh Bin Islam,Ridwanul Hasan Tanvir,Sihat Afnan
発行日 2024-11-13 05:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク