Deterministic Reversible Data Augmentation for Neural Machine Translation

要約

データ拡張は、機械翻訳におけるコーパスを多様化する効果的な方法ですが、以前の方法では、不可逆的な操作とランダムなサブワード サンプリング手順により、元のデータと拡張データの間に意味上の不一致が生じる可能性があります。
記号的に多様で意味的に一貫した拡張データの両方を生成するために、ニューラル機械翻訳のためのシンプルだが効果的なデータ拡張方法である決定論的可逆データ拡張 (DRDA) を提案します。
DRDA は、決定論的なセグメンテーションと可逆操作を採用して、複数粒度のサブワード表現を生成し、マルチビュー技術でそれらをより緊密に連携させます。
追加のコーパスやモデルの変更が必要ないため、DRDA はいくつかの翻訳タスクで強力なベースラインを明らかに上回り (Transformer に対して最大 4.3 BLEU ゲイン)、ノイズの多い、リソースが少ない、クロスドメインのデータセットにおいて優れた堅牢性を示します。

要約(オリジナル)

Data augmentation is an effective way to diversify corpora in machine translation, but previous methods may introduce semantic inconsistency between original and augmented data because of irreversible operations and random subword sampling procedures. To generate both symbolically diverse and semantically consistent augmentation data, we propose Deterministic Reversible Data Augmentation (DRDA), a simple but effective data augmentation method for neural machine translation. DRDA adopts deterministic segmentations and reversible operations to generate multi-granularity subword representations and pulls them closer together with multi-view techniques. With no extra corpora or model changes required, DRDA outperforms strong baselines on several translation tasks with a clear margin (up to 4.3 BLEU gain over Transformer) and exhibits good robustness in noisy, low-resource, and cross-domain datasets.

arxiv情報

著者 Jiashu Yao,Heyan Huang,Zeming Liu,Yuhang Guo
発行日 2024-06-04 17:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク