Simultaneous Machine Translation with Tailored Reference

要約

同時機械翻訳(SiMT)は、原文全体を読みながら翻訳を生成します。
ただし、既存の SiMT モデルは通常、異なるレイテンシーでの利用可能なソース情報の量の変化を無視して、同じリファレンスを使用してトレーニングされます。
低レイテンシでグラウンド トゥルースを使用してモデルをトレーニングすると、強制的な予測が導入される可能性がありますが、高レイテンシでソースの語順と一致する参照を利用すると、パフォーマンスが低下します。
したがって、高品質を維持しながらトレーニング中の強制的な予測を回避する適切なリファレンスを使用して SiMT モデルをトレーニングすることが重要です。
この論文では、グラウンドトゥルースを言い換えることによって、異なるレイテンシーでトレーニングされた SiMT モデルに合わせたリファレンスを提供する新しい方法を提案します。
具体的には、強化学習によって誘導されたテーラーを導入して、グラウンドトゥルースを調整された参照に変更します。
SiMT モデルは、カスタマイズされたリファレンスを使用してトレーニングされ、パフォーマンスを向上させるためにテーラーと共同で最適化されます。
重要なのは、私たちの方法は現在の幅広い SiMT アプローチに適用できることです。
3 つの翻訳タスクの実験により、私たちの方法が固定ポリシーと適応ポリシーの両方で最先端のパフォーマンスを達成できることが実証されました。

要約(オリジナル)

Simultaneous machine translation (SiMT) generates translation while reading the whole source sentence. However, existing SiMT models are typically trained using the same reference disregarding the varying amounts of available source information at different latency. Training the model with ground-truth at low latency may introduce forced anticipations, whereas utilizing reference consistent with the source word order at high latency results in performance degradation. Consequently, it is crucial to train the SiMT model with appropriate reference that avoids forced anticipations during training while maintaining high quality. In this paper, we propose a novel method that provides tailored reference for the SiMT models trained at different latency by rephrasing the ground-truth. Specifically, we introduce the tailor, induced by reinforcement learning, to modify ground-truth to the tailored reference. The SiMT model is trained with the tailored reference and jointly optimized with the tailor to enhance performance. Importantly, our method is applicable to a wide range of current SiMT approaches. Experiments on three translation tasks demonstrate that our method achieves state-of-the-art performance in both fixed and adaptive policies.

arxiv情報

著者 Shoutao Guo,Shaolei Zhang,Yang Feng
発行日 2023-10-20 15:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク