要約
テクノロジーの非対称性により、多くの人がリテラシーの低い言語で Web を使用することを余儀なくされています。
このようなユーザーが第 2 言語 (L2) で書いたテキストには、母国語 (L1) の影響による多数の誤りが含まれることがよくあります。
我々は、L1 と L2 のペアの音素の混乱 (L1 話者が混乱する可能性が高い L2 の音) をマイニングする方法を提案します。
これらの混乱は生成モデル (Bi-Phone) に組み込まれ、破損した L2 テキストが合成的に生成されます。
人間による評価を通じて、Bi-Phone は L1 間で異なる可能性のある破損を生成し、Web 上でも広く報道されていることを示しました。
また、一般的な言語理解ベンチマーク SuperGLUE を私たちの手法 (音声ノイズのある GLUE 用の FunGLUE) で破壊し、SoTA 言語の控えめなモデルのパフォーマンスが低いことを示しました。
また、バイト モデルが SuperGLUE に近いパフォーマンスを回復できるようにする、新しい音素予測事前トレーニング タスクも導入しました。
最後に、音声的に堅牢な言語モデルのさらなる研究を促進するために、FunGLUE ベンチマークもリリースします。
私たちの知る限り、FunGLUE はテキストに L1-L2 インタラクションを導入した最初のベンチマークです。
要約(オリジナル)
A large number of people are forced to use the Web in a language they have low literacy in due to technology asymmetries. Written text in the second language (L2) from such users often contains a large number of errors that are influenced by their native language (L1). We propose a method to mine phoneme confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of L1 and L2. These confusions are then plugged into a generative model (Bi-Phone) for synthetically producing corrupted L2 text. Through human evaluations, we show that Bi-Phone generates plausible corruptions that differ across L1s and also have widespread coverage on the Web. We also corrupt the popular language understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically Noised GLUE) and show that SoTA language understating models perform poorly. We also introduce a new phoneme prediction pre-training task which helps byte models to recover performance close to SuperGLUE. Finally, we also release the FunGLUE benchmark to promote further research in phonetically robust language models. To the best of our knowledge, FunGLUE is the first benchmark to introduce L1-L2 interactions in text.
arxiv情報
著者 | Abhirut Gupta,Ananya B. Sai,Richard Sproat,Yuri Vasilevski,James S. Ren,Ambarish Jash,Sukhdeep S. Sodhi,Aravindan Raghuveer |
発行日 | 2023-07-06 22:31:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google