要約
自動ポスト編集(APE)モデルの開発には、学習データが不足しているため、合成データを活用した半教師付き学習が広く採用されている。そのため、高品質な合成データを作成するためのデータ合成手法に着目する。APEはエラーを含む可能性のある機械翻訳結果を入力とするため、得られた合成データが実際のデータに見られる翻訳エラーを模倣するデータ合成法を提示する。マスク言語モデルのアプローチを応用し、マスクされたトークンに誤りのあるトークンを埋め込むことで、きれいなテキストからノイズのあるテキストを生成するノイズベースのデータ合成法を紹介する。さらに、合成データの品質をさらに向上させるために、有利なサンプルだけを取り出して2つの別々の合成データセットを結合する選択的コーパスインターリーブを提案する。実験の結果、我々のアプローチによって作成された合成データを用いると、既存の方法によって作成された他の合成データよりもAPE性能が大幅に向上することが示された。
要約(オリジナル)
Semi-supervised learning that leverages synthetic data for training has been widely adopted for developing automatic post-editing (APE) models due to the lack of training data. With this aim, we focus on data-synthesis methods to create high-quality synthetic data. Given that APE takes as input a machine-translation result that might include errors, we present a data-synthesis method by which the resulting synthetic data mimic the translation errors found in actual data. We introduce a noising-based data-synthesis method by adapting the masked language model approach, generating a noisy text from a clean text by infilling masked tokens with erroneous tokens. Moreover, we propose selective corpus interleaving that combines two separate synthetic datasets by taking only the advantageous samples to enhance the quality of the synthetic data further. Experimental results show that using the synthetic data created by our approach results in significantly better APE performance than other synthetic data created by existing methods.
arxiv情報
著者 | Wonkee Lee,Seong-Hwan Heo,Jong-Hyeok Lee |
発行日 | 2024-06-03 14:09:05+00:00 |
arxivサイト | arxiv_id(pdf) |