Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling Corrector

要約

自然言語処理 (NLP) の進歩は近年急速に進んでいますが、すべての言語で同じペースではありません。
特にアフリカ言語は依然として遅れており、自動処理ツールがありません。
これらのツールの一部は、これらの言語の開発にとって非常に重要ですが、多くの NLP アプリケーションでも重要な役割を果たします。
これは特に自動スペル チェッカーに当てはまります。
このタスクに対処するためにいくつかのアプローチが研究されており、スペルミス (ノイズのある) テキストからスペルが正しい (正しい) テキストへの翻訳タスクとしてスペル修正をモデル化したアプローチは、有望な結果を示しています。
ただし、このアプローチでは、ノイズの多いデータと正しいデータの並列コーパスが必要ですが、Wolof はリソースが少ない言語であり、そのようなコーパスはありません。
この論文では、合成データを生成することでデータ不足に関連する制約に対処する方法を示し、Wolof でのスペル修正に深層学習を使用したシーケンスツーシーケンス モデルを示します。
私たちは、データに適用されたサブワード法に応じて 3 つの異なるシナリオでこれらのモデルを評価し、後者がモデルのパフォーマンスに重大な影響を与えることを示しました。これにより、ウォロフのスペル修正に関する将来の研究への道が開かれます。

要約(オリジナル)

The progress of Natural Language Processing (NLP), although fast in recent years, is not at the same pace for all languages. African languages in particular are still behind and lack automatic processing tools. Some of these tools are very important for the development of these languages but also have an important role in many NLP applications. This is particularly the case for automatic spell checkers. Several approaches have been studied to address this task and the one modeling spelling correction as a translation task from misspelled (noisy) text to well-spelled (correct) text shows promising results. However, this approach requires a parallel corpus of noisy data on the one hand and correct data on the other hand, whereas Wolof is a low-resource language and does not have such a corpus. In this paper, we present a way to address the constraint related to the lack of data by generating synthetic data and we present sequence-to-sequence models using Deep Learning for spelling correction in Wolof. We evaluated these models in three different scenarios depending on the subwording method applied to the data and showed that the latter had a significant impact on the performance of the models, which opens the way for future research in Wolof spelling correction.

arxiv情報

著者 Derguene Mbaye,Moussa Diallo
発行日 2023-05-15 10:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク