Pairing Orthographically Variant Literary Words to Standard Equivalents Using Neural Edit Distance Models


我々は、19 世紀の米国文学作品に見られる正書法的に異形の単語で構成され、対応する「標準」単語のペアで注釈が付けられた新しいコーパスを提示します。
これらのバリアントを標準形式とペアにするために一連のニューラル編集距離モデルをトレーニングし、これらのモデルのパフォーマンスを、L2 英語学習者による正書法エラーのコーパスでトレーニングされた一連のニューラル編集距離モデルのパフォーマンスと比較します。
最後に、さまざまなネガティブ トレーニング サンプル生成戦略に照らしてこれらのモデルの相対的なパフォーマンスを分析し、文字列ペアリング方法論に文学的正書法バリエーションがもたらす独特の課題についての結論を述べます。


We present a novel corpus consisting of orthographically variant words found in works of 19th century U.S. literature annotated with their corresponding ‘standard’ word pair. We train a set of neural edit distance models to pair these variants with their standard forms, and compare the performance of these models to the performance of a set of neural edit distance models trained on a corpus of orthographic errors made by L2 English learners. Finally, we analyze the relative performance of these models in the light of different negative training sample generation strategies, and offer concluding remarks on the unique challenge literary orthographic variation poses to string pairing methodologies.


著者 Craig Messner,Tom Lippincott
発行日 2024-01-26 18:49:34+00:00
カテゴリー: cs.CL