A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages

要約

最新の大規模言語モデルは、テキストの生成と一般化において優れた機能を示しています。
ただし、特にスペルミスやタイプミスの修正に関しては、テキスト編集タスクの解決に苦労することがよくあります。
この論文では、生成的スペル修正 (SC) の方法論を紹介します。この方法は英語とロシア語でテストされており、わずかな変更を加えることであらゆる言語に拡張できる可能性があります。
私たちの研究は主に、テキスト内の自然なスペル エラーやタイプミスを調査し、それらのエラーを正しい文でエミュレートして生成モデルの事前トレーニング手順を効果的に強化する方法を研究することに焦点を当てています。
私たちは、このようなエミュレーションの影響と、さまざまなテキスト ドメインにわたるモデルの能力を調査します。
この研究では、2 つのスペル破損手法を調査します。1) 1 つ目は、特定のデータセットからのエラーの統計を活用することで、間違いを犯したときの人間の動作を模倣します。2) 2 つ目は、最も一般的なスペル エラー、キーボードのミス クリック、およびいくつかのヒューリスティックをデータセット内に追加します。
テキスト。
私たちは、事前トレーニングおよび微調整段階でさまざまな破損戦略、モデルのアーキテクチャ、サイズを採用した実験を実施し、シングルドメインおよびマルチドメインのテストセットを使用してモデルを評価しました。
私たちの仕事の実践的な成果として、SAGE (拡張および生成配布エミュレーションによるスペルチェック) を紹介します。
これは、事前トレーニングされた生成モデルのファミリーと組み込みの拡張アルゴリズムを含む自動生成 SC 用のライブラリです。

要約(オリジナル)

Modern large language models demonstrate impressive capabilities in text generation and generalization. However, they often struggle with solving text editing tasks, particularly when it comes to correcting spelling errors and mistypings. In this paper, we present a methodology for generative spelling correction (SC), which was tested on English and Russian languages and potentially can be extended to any language with minor changes. Our research mainly focuses on exploring natural spelling errors and mistypings in texts and studying the ways those errors can be emulated in correct sentences to effectively enrich generative models’ pre-train procedure. We investigate the impact of such emulations and the models’ abilities across different text domains. In this work, we investigate two spelling corruption techniques: 1) first one mimics human behavior when making a mistake through leveraging statistics of errors from particular dataset and 2) second adds the most common spelling errors, keyboard miss clicks, and some heuristics within the texts. We conducted experiments employing various corruption strategies, models’ architectures and sizes on the pre-training and fine-tuning stages and evaluated the models using single-domain and multi-domain test sets. As a practical outcome of our work, we introduce SAGE(Spell checking via Augmentation and Generative distribution Emulation). It is a library for automatic generative SC that includes a family of pre-trained generative models and built-in augmentation algorithms.

arxiv情報

著者 Nikita Martynov,Mark Baushenko,Anastasia Kozlova,Katerina Kolomeytseva,Aleksandr Abramov,Alena Fenogenova
発行日 2023-09-13 15:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク