Investigating Lexical Replacements for Arabic-English Code-Switched Data Augmentation

要約

タイトル: アラビア語英語コードスイッチングデータ拡張のための語彙置き換えの調査

要約: データの貧弱さは、コードスイッチング(CS)NLPシステムの開発を妨げる主要な問題です。この論文では、方言アラビア語-英語のCSテキストを合成するためのデータ拡張技術を調査します。我々は、CSポイントがランダムに選択されるか、シーケンス-シーケンスモデルを使用して学習される場合に単語に対して置き換えを行います。これらのアプローチを辞書ベースの置き換えと比較します。生成された文の品質を人間の評価を通じて評価し、データ拡張の機械翻訳(MT)、自動音声認識(ASR)、音声翻訳(ST)タスクにおける有効性を評価します。結果は、予測モデルを使用することが、ランダムなアプローチよりも自然なCS文を生成することにつながったことが人間の評価で報告されました。下流タスクでは、ランダムなアプローチがより多くのデータを生成しているにもかかわらず、両方のアプローチが同等の(辞書ベースの置き換えを上回る)性能を発揮しました。結局のところ、データ拡張は、拡張なしで利用可能なデータでトレーニングされたベースラインに比べて、言語モデルの困難さに対する34%の改善、ASRタスクで5.2%の相対改善、MTタスクで+4.0-5.1 BLEUポイント、STタスクで+2.1-2.2 BLEUポイントを達成しました。

要約(オリジナル)

Data sparsity is a main problem hindering the development of code-switching (CS) NLP systems. In this paper, we investigate data augmentation techniques for synthesizing dialectal Arabic-English CS text. We perform lexical replacements using word-aligned parallel corpora where CS points are either randomly chosen or learnt using a sequence-to-sequence model. We compare these approaches against dictionary-based replacements. We assess the quality of the generated sentences through human evaluation and evaluate the effectiveness of data augmentation on machine translation (MT), automatic speech recognition (ASR), and speech translation (ST) tasks. Results show that using a predictive model results in more natural CS sentences compared to the random approach, as reported in human judgements. In the downstream tasks, despite the random approach generating more data, both approaches perform equally (outperforming dictionary-based replacements). Overall, data augmentation achieves 34% improvement in perplexity, 5.2% relative improvement on WER for ASR task, +4.0-5.1 BLEU points on MT task, and +2.1-2.2 BLEU points on ST over a baseline trained on available data without augmentation.

arxiv情報

著者 Injy Hamed,Nizar Habash,Slim Abdennadher,Ngoc Thang Vu
発行日 2023-04-04 17:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク