XDLM: Cross-lingual Diffusion Language Model for Machine Translation

要約

最近、拡散モデルは画像生成タスクに優れており、制御可能なテキスト生成のためのニューラル言語処理 (NLP) にも適用されています。
ただし、言語を超えた環境での拡散モデルの適用については、あまり研究されていません。
さらに、拡散モデルを使用した事前トレーニングは単一言語内で研究されていますが、言語を越えた事前トレーニングの可能性については十分に研究されていません。
これらのギャップに対処するために、事前トレーニング段階と微調整段階で構成される、機械翻訳のための新しい言語間拡散モデルである XDLM を提案します。
事前トレーニング段階では、異なる言語間のマッピングを習得するための新しいトレーニング目標である TLDM を提案します。
微調整段階では、事前学習済みモデルに基づいて翻訳システムを構築します。
いくつかの機械翻訳ベンチマークで結果を評価し、拡散ベースラインと Transformer ベースラインの両方を上回りました。

要約(オリジナル)

Recently, diffusion models have excelled in image generation tasks and have also been applied to neural language processing (NLP) for controllable text generation. However, the application of diffusion models in a cross-lingual setting is less unexplored. Additionally, while pretraining with diffusion models has been studied within a single language, the potential of cross-lingual pretraining remains understudied. To address these gaps, we propose XDLM, a novel Cross-lingual diffusion model for machine translation, consisting of pretraining and fine-tuning stages. In the pretraining stage, we propose TLDM, a new training objective for mastering the mapping between different languages; in the fine-tuning stage, we build up the translation system based on the pretrained model. We evaluate the result on several machine translation benchmarks and outperformed both diffusion and Transformer baselines.

arxiv情報

著者 Linyao Chen,Aosong Feng,Boming Yang,Zihui Li
発行日 2023-07-25 15:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク