要約
スペル修正は、自然言語処理の分野における注目すべき課題です。
スペル修正タスクの目的は、スペル ミスを自動的に認識して修正することです。
ペルシア語テキストの品質を向上させるためには、ペルシア語のスペルや文法上の誤りを効果的に診断して修正できるアプリケーションの開発がますます重要になっています。
ペルシア語の誤字タイプの検出は、比較的研究が進んでいない分野です。
したがって、この論文では、ペルシア語テキストの誤植を検出するための説得力のあるアプローチを紹介します。
私たちの研究には、FarsTypo と呼ばれる公開されているデータセットのプレゼンテーションが含まれています。このデータセットは、時系列に並べられ、対応する品詞がタグ付けされた 340 万語で構成されています。
これらの単語は、幅広いトピックと言語スタイルをカバーしています。
私たちは、ペルシャ語特有のエラーをこれらの単語のスケーラブルな部分に適用するように設計されたアルゴリズムを開発し、その結果、正しい単語と間違った単語の並列データセットが得られます。
FarsTypo を活用することで、強力な基盤を確立し、異なるアーキテクチャを採用したさまざまな方法論を徹底的に比較します。
さらに、51 の異なるクラスにわたる誤植を検出することを目的としたトークン分類に、単語と文字の両方の埋め込みと双方向 LSTM 層を利用する画期的なディープ シーケンシャル ニューラル ネットワークを導入します。
私たちのアプローチは、この研究とは異なり、多様なリソースを使用して開発された高度に先進的な産業システムとは対照的です。
最終的な方法の結果は、精度 97.62%、精度 98.83%、再現率 98.61% を達成し、速度の点で他の方法を上回り、非常に競争力があることが証明されました。
要約(オリジナル)
Spelling correction is a remarkable challenge in the field of natural language processing. The objective of spelling correction tasks is to recognize and rectify spelling errors automatically. The development of applications that can effectually diagnose and correct Persian spelling and grammatical errors has become more important in order to improve the quality of Persian text. The Typographical Error Type Detection in Persian is a relatively understudied area. Therefore, this paper presents a compelling approach for detecting typographical errors in Persian texts. Our work includes the presentation of a publicly available dataset called FarsTypo, which comprises 3.4 million words arranged in chronological order and tagged with their corresponding part-of-speech. These words cover a wide range of topics and linguistic styles. We develop an algorithm designed to apply Persian-specific errors to a scalable portion of these words, resulting in a parallel dataset of correct and incorrect words. By leveraging FarsTypo, we establish a strong foundation and conduct a thorough comparison of various methodologies employing different architectures. Additionally, we introduce a groundbreaking Deep Sequential Neural Network that utilizes both word and character embeddings, along with bidirectional LSTM layers, for token classification aimed at detecting typographical errors across 51 distinct classes. Our approach is contrasted with highly advanced industrial systems that, unlike this study, have been developed using a diverse range of resources. The outcomes of our final method proved to be highly competitive, achieving an accuracy of 97.62%, precision of 98.83%, recall of 98.61%, and surpassing others in terms of speed.
arxiv情報
著者 | Mohammad Dehghani,Heshaam Faili |
発行日 | 2024-01-11 10:32:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google