On Synthetic Data for Back Translation

要約

バックトランスレーション (BT) は、NMT 研究分野で最も重要なテクノロジーの 1 つです。
BT に関する既存の試みには共通の特徴があります。つまり、ビーム サーチまたはランダム サンプリングのいずれかを使用して、後方モデルで合成データを生成しますが、BT のパフォーマンスにおける合成データの役割について研究することはほとんどありません。
これにより、私たちは基本的な質問をするようになりました: {\em どのような種類の合成データが BT のパフォーマンスに貢献しているのですか?} 理論的研究と実証的研究の両方を通じて、逆変換 NMT のパフォーマンスを制御する合成データに関する 2 つの重要な要素を特定しました。
重要性。
さらに、私たちの調査結果に基づいて、BT のパフォーマンスを向上させるために両方の要素をより適切にトレードオフする合成データを生成するシンプルかつ効果的な方法を提案します。
WMT14 DE-EN、EN-DE、RU-EN ベンチマーク タスクに関して広範な実験を実行しています。
合成データを生成するために私たちが提案した方法を採用することにより、私たちのBTモデルは標準的なBTベースライン(つまり、データ生成のためのビームおよびサンプリングベースの方法)を大幅に上回り、これは私たちの提案した方法の有効性を証明しています。

要約(オリジナル)

Back translation (BT) is one of the most significant technologies in NMT research fields. Existing attempts on BT share a common characteristic: they employ either beam search or random sampling to generate synthetic data with a backward model but seldom work studies the role of synthetic data in the performance of BT. This motivates us to ask a fundamental question: {\em what kind of synthetic data contributes to BT performance?} Through both theoretical and empirical studies, we identify two key factors on synthetic data controlling the back-translation NMT performance, which are quality and importance. Furthermore, based on our findings, we propose a simple yet effective method to generate synthetic data to better trade off both factors so as to yield a better performance for BT. We run extensive experiments on WMT14 DE-EN, EN-DE, and RU-EN benchmark tasks. By employing our proposed method to generate synthetic data, our BT model significantly outperforms the standard BT baselines (i.e., beam and sampling based methods for data generation), which proves the effectiveness of our proposed methods.

arxiv情報

著者 Jiahao Xu,Yubin Ruan,Wei Bi,Guoping Huang,Shuming Shi,Lihui Chen,Lemao Liu
発行日 2023-10-20 17:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク