Code-Switched Text Synthesis in Unseen Language Pairs

要約

コードスイッチング用のテキスト合成に関する既存の取り組みでは、ほとんどの場合、ターゲット言語ペアでのコードスイッチングテキストのトレーニングが必要であり、モデルの展開はコードスイッチングデータが欠如しているケースに限定されています。
この研究では、トレーニング データに存在しない言語ペアのコード スイッチド テキストを合成する問題を研究します。
GLOSS は、事前トレーニング済みの多言語機械翻訳モデル (PMMTM) の上に構築されたモデルで、コード交換モジュールが追加されています。
このモジュールはアダプターまたは追加のプレフィックスであり、GLOSS の主要コンポーネントである PMMTM がフリーズされている間に、トレーニング中にコード スイッチングされたデータからコード スイッチング パターンを学習します。
コード切り替えモジュールのみを調整する設計により、モデルがコード切り替えの制約付きトレーニング データに過剰適合することがなくなります。
したがって、GLOSS は、より広範囲の言語ペアにわたってコード交換テキストを一般化および合成する機能を示します。
さらに、GLOSS の信頼性をさらに高めるために、ターゲット言語ペアに関する自己トレーニング アルゴリズムを開発しました。
4 つの言語ペアの自動評価では、GLOSS が強力なベースラインと比較して、BLEU および METEOR スコアの相対スコアを少なくとも 55% 向上させていることが示されています。
2 つの言語ペアに対する人による評価により、GLOSS の成功がさらに検証されます。

要約(オリジナル)

Existing efforts on text synthesis for code-switching mostly require training on code-switched texts in the target language pairs, limiting the deployment of the models to cases lacking code-switched data. In this work, we study the problem of synthesizing code-switched texts for language pairs absent from the training data. We introduce GLOSS, a model built on top of a pre-trained multilingual machine translation model (PMMTM) with an additional code-switching module. This module, either an adapter or extra prefixes, learns code-switching patterns from code-switched data during training, while the primary component of GLOSS, i.e., the PMMTM, is frozen. The design of only adjusting the code-switching module prevents our model from overfitting to the constrained training data for code-switching. Hence, GLOSS exhibits the ability to generalize and synthesize code-switched texts across a broader spectrum of language pairs. Additionally, we develop a self-training algorithm on target language pairs further to enhance the reliability of GLOSS. Automatic evaluations on four language pairs show that GLOSS achieves at least 55% relative BLEU and METEOR scores improvements compared to strong baselines. Human evaluations on two language pairs further validate the success of GLOSS.

arxiv情報

著者 I-Hung Hsu,Avik Ray,Shubham Garg,Nanyun Peng,Jing Huang
発行日 2023-07-07 07:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク