Non-Fluent Synthetic Target-Language Data Improve Neural Machine Translation

要約

ニューラル機械翻訳のトレーニングに利用できる並列文の量が不足している場合、一般的な方法は、それらの文から新しい合成トレーニング サンプルを生成することです。
利用可能な並列データにあるものと同様の合成並列文を生成するために、多くのアプローチが提案されています。
これらのアプローチは、非流暢なターゲット側の合成トレーニング サンプルが有害であり、翻訳パフォーマンスを低下させる可能性があるという想定に基づいて機能します。
それでも、この論文では、流暢ではないターゲット文を含む合成トレーニング サンプルを、あたかも別の言語の文であるかのように多言語機械翻訳フレームワークで使用すると、翻訳パフォーマンスを向上できることを実証します。
私たちは 10 個の低リソース翻訳タスクと 4 個の高リソース翻訳タスクについて実験を行ったところ、コーパスにあるものと同様の合成トレーニング サンプルを生成する最先端の方法と比較して、このシンプルなアプローチが翻訳パフォーマンスを一貫して向上させることがわかりました。
さらに、この改善は元のトレーニング コーパスのサイズとは無関係であり、結果として得られるシステムはドメイン シフトに対してより堅牢になり、幻覚が少なくなります。

要約(オリジナル)

When the amount of parallel sentences available to train a neural machine translation is scarce, a common practice is to generate new synthetic training samples from them. A number of approaches have been proposed to produce synthetic parallel sentences that are similar to those in the parallel data available. These approaches work under the assumption that non-fluent target-side synthetic training samples can be harmful and may deteriorate translation performance. Even so, in this paper we demonstrate that synthetic training samples with non-fluent target sentences can improve translation performance if they are used in a multilingual machine translation framework as if they were sentences in another language. We conducted experiments on ten low-resource and four high-resource translation tasks and found out that this simple approach consistently improves translation performance as compared to state-of-the-art methods for generating synthetic training samples similar to those found in corpora. Furthermore, this improvement is independent of the size of the original training corpus, the resulting systems are much more robust against domain shift and produce less hallucinations.

arxiv情報

著者 Víctor M. Sánchez-Cartagena,Miquel Esplà-Gomis,Juan Antonio Pérez-Ortiz,Felipe Sánchez-Martínez
発行日 2024-01-29 11:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク