‘A Little is Enough’: Few-Shot Quality Estimation based Corpus Filtering improves Machine Translation

要約

品質評価 (QE) は、参考翻訳が利用できない場合に翻訳の品質を評価するタスクです。
QE の目標は、擬似並列コーパス内に存在する文のペアに品質スコアを割り当てるコーパス フィルタリングのタスクと一致しています。
我々は、擬似並列コーパスから高品質の並列データを抽出するための品質推定ベースのフィルタリングアプローチを提案します。
私たちの知る限り、これは、擬似並列コーパスから高品質の並列コーパスを抽出するための QE フレームワークの新しい適応です。
このフィルタリングされたコーパスを使用してトレーニングすることにより、ベースライン モデルと比較して、英語-マラーティー語、中国語-英語、ヒンディー語-ベンガル語の言語ペアについて、機械翻訳 (MT) システムのパフォーマンスが最大 1.8 BLEU ポイント向上することが観察されました。
ベースライン モデルは、擬似並列コーパス全体でトレーニングされたモデルです。
英語-マラーティー語 QE モデルから学習し、わずか 500 のヒンディー語-ベンガル語トレーニング インスタンスで微調整されたフューショット QE モデルの移行は、ベースライン モデルと比較して、ヒンディー語-ベンガル語の言語ペアで最大 0.6 BLEU ポイントの改善を示しています。
これは、議論中の設定における転移学習の有望性を示しています。
QE システムは通常、(7K ~ 25K) 程度のトレーニング データを必要とします。
当社のヒンディー語/ベンガル語 QE は、通常の要件の 1/40 である 500 回のトレーニングのみでトレーニングされており、同等のパフォーマンスを達成します。
この研究で使用されたすべてのスクリプトとデータセットは一般に公開されます。

要約(オリジナル)

Quality Estimation (QE) is the task of evaluating the quality of a translation when reference translation is not available. The goal of QE aligns with the task of corpus filtering, where we assign the quality score to the sentence pairs present in the pseudo-parallel corpus. We propose a Quality Estimation based Filtering approach to extract high-quality parallel data from the pseudo-parallel corpus. To the best of our knowledge, this is a novel adaptation of the QE framework to extract quality parallel corpus from the pseudo-parallel corpus. By training with this filtered corpus, we observe an improvement in the Machine Translation (MT) system’s performance by up to 1.8 BLEU points, for English-Marathi, Chinese-English, and Hindi-Bengali language pairs, over the baseline model. The baseline model is the one that is trained on the whole pseudo-parallel corpus. Our Few-shot QE model transfer learned from the English-Marathi QE model and fine-tuned on only 500 Hindi-Bengali training instances, shows an improvement of up to 0.6 BLEU points for Hindi-Bengali language pair, compared to the baseline model. This demonstrates the promise of transfer learning in the setting under discussion. QE systems typically require in the order of (7K-25K) of training data. Our Hindi-Bengali QE is trained on only 500 instances of training that is 1/40th of the normal requirement and achieves comparable performance. All the scripts and datasets utilized in this study will be publicly available.

arxiv情報

著者 Akshay Batheja,Pushpak Bhattacharyya
発行日 2023-06-06 08:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク