Code-Switched Text Synthesis in Unseen Language Pairs

要約

コードスイッチング用のテキスト合成に関する既存の取り組みでは、ほとんどの場合、ターゲット言語ペアでのコードスイッチングテキストのトレーニングが必要であり、モデルの展開はコードスイッチングデータが欠如しているケースに限定されています。
この研究では、トレーニングデータに存在しない言語ペアのコードスイッチドテキストを合成する問題を研究します。
GLOSS は、事前トレーニング済みの多言語機械翻訳モデル (PMMTM) の上に構築されたモデルで、コード交換モジュールが追加されています。
このモジュールはアダプターまたは追加のプレフィックスであり、GLOSS の主要コンポーネントである PMMTM がフリーズされている間に、トレーニング中にコードスイッチングされたデータからコードスイッチングパターンを学習します。
コード切り替えモジュールのみを調整する設計により、モデルがコード切り替えの制約付きトレーニングデータに過剰適合することがなくなります。
したがって、GLOSS は、より広範囲の言語ペアにわたってコード交換テキストを一般化および合成する機能を示します。
さらに、GLOSS の信頼性をさらに高めるために、ターゲット言語ペアに関する自己トレーニングアルゴリズムを開発しました。
4 つの言語ペアの自動評価では、GLOSS が強力なベースラインと比較して、BLEU および METEOR スコアの相対スコアを少なくとも 55% 向上させていることが示されています。
2 つの言語ペアに対する人による評価により、GLOSS の成功がさらに検証されます。

要約(オリジナル)

Existing efforts on text synthesis for code-switching mostly require training on code-switched texts in the target language pairs, limiting the deployment of the models to cases lacking code-switched data. In this work, we study the problem of synthesizing code-switched texts for language pairs absent from the training data. We introduce GLOSS, a model built on top of a pre-trained multilingual machine translation model (PMMTM) with an additional code-switching module. This module, either an adapter or extra prefixes, learns code-switching patterns from code-switched data during training, while the primary component of GLOSS, i.e., the PMMTM, is frozen. The design of only adjusting the code-switching module prevents our model from overfitting to the constrained training data for code-switching. Hence, GLOSS exhibits the ability to generalize and synthesize code-switched texts across a broader spectrum of language pairs. Additionally, we develop a self-training algorithm on target language pairs further to enhance the reliability of GLOSS. Automatic evaluations on four language pairs show that GLOSS achieves at least 55% relative BLEU and METEOR scores improvements compared to strong baselines. Human evaluations on two language pairs further validate the success of GLOSS.

arxiv情報

著者	I-Hung Hsu,Avik Ray,Shubham Garg,Nanyun Peng,Jing Huang
発行日	2023-07-07 07:51:38+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Code-Switched Text Synthesis in Unseen Language Pairs

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー