要約
並列データと単言語データの混合でトレーニングされた多言語機械翻訳 (MMT) は、リソースの少ない言語ペアでの翻訳を改善するための鍵となります。
ただし、文献では、単一言語データを含めるさまざまな方法のパフォーマンスに関して矛盾した結果が提供されています。
これを解決するために、さまざまなデータ条件とモデル スケールの下で、ノイズ除去自動エンコーディング (DAE) と逆変換 (BT) が MMT にどのような影響を与えるかを調べます。
先行研究とは異なり、私たちは 100 の翻訳方向の現実的なデータセットを使用し、単一言語データとテスト データの多くのドメインの組み合わせを考慮します。
単一言語データは一般的に MMT に役立ちますが、モデルはドメインの不一致に対して驚くほど脆弱であり、特にモデルの規模が小さい場合に顕著です。
BT は、並列データ ソース、単一言語データ ソース、およびテスト データ ソースが類似している場合には有益ですが、それ以外の場合は有害になる可能性があります。一方、DAE は以前に報告されているほど効果的ではありません。
次に、スケール (9000 万から 160 億のパラメーター) の影響を分析し、それが両方の方法、特に DAE にとって重要であることがわかります。
規模が増加するにつれて、DAE は 90M の並列のみのベースラインを下回るパフォーマンスから、1.6B の BT パフォーマンスに収束し、低リソースではそれを上回ることもあります。
これらの結果は、MMT で単一言語データを最適に使用する方法についての新たな洞察を提供します。
要約(オリジナル)
Multilingual machine translation (MMT), trained on a mixture of parallel and monolingual data, is key for improving translation in low-resource language pairs. However, the literature offers conflicting results on the performance of different methods of including monolingual data. To resolve this, we examine how denoising autoencoding (DAE) and backtranslation (BT) impact MMT under different data conditions and model scales. Unlike prior studies, we use a realistic dataset of 100 translation directions and consider many domain combinations of monolingual and test data. We find that monolingual data generally helps MMT, but models are surprisingly brittle to domain mismatches, especially at smaller model scales. BT is beneficial when the parallel, monolingual, and test data sources are similar but can be detrimental otherwise, while DAE is less effective than previously reported. Next, we analyze the impact of scale (from 90M to 1.6B parameters) and find it is important for both methods, particularly DAE. As scale increases, DAE transitions from underperforming the parallel-only baseline at 90M to converging with BT performance at 1.6B, and even surpassing it in low-resource. These results offer new insights into how to best use monolingual data in MMT.
arxiv情報
著者 | Christos Baziotis,Biao Zhang,Alexandra Birch,Barry Haddow |
発行日 | 2024-03-30 08:49:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google