A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance

要約

書くことは、人間のコミュニケーションの遍在形式として、現代生活のほぼすべての側面に浸透しています。
したがって、書面によるコミュニケーションにおける不正確または誤りは、経済的損失から潜在的に生命を脅かす状況に至るまで、深刻な結果を招く可能性があります。
最も一般的な書き込みエラーの 1 つであるスペルミスは、さまざまな要因により頻繁に発生します。
この研究は、ニューラル ネットワークを使用してテキスト内のさまざまなスペル ミスを特定し、修正することを目的としています。具体的には、Bidirectional Encoder Representations from Transformers (BERT) マスク言語モデルを活用します。
この目標を達成するために、さまざまな種類のスペルミスを分類した後、非現実語と現実語の両方のエラーを含む包括的なデータセットを編集しました。
その後、複数の事前トレーニングされた BERT モデルが使用されました。
スペルミスの修正における最適なパフォーマンスを確保するために、BERT マスク言語モデルとレーベンシュタイン距離を利用した組み合わせアプローチを提案します。
私たちの評価データの結果は、ここで紹介するシステムがスペルミスの特定と修正において顕著な能力を発揮し、多くの場合ペルシア語用に調整された既存のシステムを上回ることを示しています。

要約(オリジナル)

Writing, as an omnipresent form of human communication, permeates nearly every aspect of contemporary life. Consequently, inaccuracies or errors in written communication can lead to profound consequences, ranging from financial losses to potentially life-threatening situations. Spelling mistakes, among the most prevalent writing errors, are frequently encountered due to various factors. This research aims to identify and rectify diverse spelling errors in text using neural networks, specifically leveraging the Bidirectional Encoder Representations from Transformers (BERT) masked language model. To achieve this goal, we compiled a comprehensive dataset encompassing both non-real-word and real-word errors after categorizing different types of spelling mistakes. Subsequently, multiple pre-trained BERT models were employed. To ensure optimal performance in correcting misspelling errors, we propose a combined approach utilizing the BERT masked language model and Levenshtein distance. The results from our evaluation data demonstrate that the system presented herein exhibits remarkable capabilities in identifying and rectifying spelling mistakes, often surpassing existing systems tailored for the Persian language.

arxiv情報

著者 Amirreza Naziri,Hossein Zeinali
発行日 2024-07-24 16:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク