Misspellings in Natural Language Processing: A survey

要約

この調査では、自然言語加工(NLP)におけるスペルミスの課題の概要を説明します。
多くの場合、意図的ではありませんが、特にWeb 2.0、ユーザー生成コンテンツ、ソーシャルメディア、ブログ、フォーラムなどの非公式のテキストメディアの拡散により、デジタル通信が遍在しています。
たとえ人間が一般にスペルのあるテキストを解釈できる場合でも、NLPモデルは頻繁にそれを処理するのに苦労します。これは、テキスト分類や機械翻訳などの一般的なタスクのパフォーマンスの低下を引き起こします。
この論文では、科学的な問題としての間違いの歴史を再構築します。
次に、最新の進歩について議論して、NLPの間違いの課題に対処します。
スペルミスの影響を緩和するための主な戦略には、データの増強、二重ステップ、キャラクターオーダーの不可知論、およびタプルベースの方法などが含まれます。
この調査では、現場での進歩を促進するための専用のデータの課題と競争も検討しています。
重要な安全性と倫理的懸念も検討されています。たとえば、スペルミスの自発的な使用は、ソーシャルネットワークに悪意のあるメッセージやヘイトスピーチを注入します。
さらに、この調査では、人間が間違いをどのように処理するかについての心理語の視点を調査し、テキストの正規化と表現のための革新的な計算手法を通知する可能性があります。
最後に、ベンチマーク、データセット、間違いに対する最も顕著な言語モデルのパフォーマンスなど、最新の大規模な言語モデルに関連する誤りに関連する課題と機会も分析されます。
この調査の目的は、NLPの急速に進化する景観におけるスペルミスの影響を軽減しようとする研究者にとって徹底的なリソースになることを目的としています。

要約(オリジナル)

This survey provides an overview of the challenges of misspellings in natural language processing (NLP). While often unintentional, misspellings have become ubiquitous in digital communication, especially with the proliferation of Web 2.0, user-generated content, and informal text mediums such as social media, blogs, and forums. Even if humans can generally interpret misspelled text, NLP models frequently struggle to handle it: this causes a decline in performance in common tasks like text classification and machine translation. In this paper, we reconstruct a history of misspellings as a scientific problem. We then discuss the latest advancements to address the challenge of misspellings in NLP. Main strategies to mitigate the effect of misspellings include data augmentation, double step, character-order agnostic, and tuple-based methods, among others. This survey also examines dedicated data challenges and competitions to spur progress in the field. Critical safety and ethical concerns are also examined, for example, the voluntary use of misspellings to inject malicious messages and hate speech on social networks. Furthermore, the survey explores psycholinguistic perspectives on how humans process misspellings, potentially informing innovative computational techniques for text normalization and representation. Finally, the misspelling-related challenges and opportunities associated with modern large language models are also analyzed, including benchmarks, datasets, and performances of the most prominent language models against misspellings. This survey aims to be an exhaustive resource for researchers seeking to mitigate the impact of misspellings in the rapidly evolving landscape of NLP.

arxiv情報

著者 Gianluca Sperduti,Alejandro Moreo
発行日 2025-01-28 10:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク