Exploring Paracrawl for Document-level Neural Machine Translation

要約

タイトル:『Paracrawlを用いたドキュメントレベルニューラル機械翻訳の探索』
要約:
– ドキュメントレベルのニューラル機械翻訳(NMT)は、いくつかのデータセットで文レベルのNMTを上回っているが、大規模な汎用ドメインのトレーニングデータの不足のため、実際の翻訳システムで広く採用されていない。
– 本研究では、Paracrawl(インターネットからクロールされた大規模な並列コーパス)を使用して、ドキュメントレベルの翻訳の学習効果を調べる。
– Paracrawlコーパスは、公式には並列の文章(並列のWebページから抽出された)としてリリースされており、以前の研究では文レベルの翻訳の学習にしか使用されていなかった。
– 本研究では、自動的に文をアラインメントしてParacrawl平行Webページから並列の段落を抽出し、抽出した並列の段落をトレーニングデータとしてドキュメントレベルの翻訳モデルを学習。
– 実際のTED、ニュース、Europarlのドキュメントを翻訳するために、Paracrawlの並列パラグラフだけを使用してトレーニングされたドキュメントレベルのNMTモデルは、文レベルのNMTモデルを上回る性能を発揮することを示した。
– また、文脈に応じた代名詞の翻訳を改善するために、Paracrawlデータでトレーニングされたドキュメントレベルモデルを対象的な代名詞評価で評価し、効果を示した。

要約(オリジナル)

Document-level neural machine translation (NMT) has outperformed sentence-level NMT on a number of datasets. However, document-level NMT is still not widely adopted in real-world translation systems mainly due to the lack of large-scale general-domain training data for document-level NMT. We examine the effectiveness of using Paracrawl for learning document-level translation. Paracrawl is a large-scale parallel corpus crawled from the Internet and contains data from various domains. The official Paracrawl corpus was released as parallel sentences (extracted from parallel webpages) and therefore previous works only used Paracrawl for learning sentence-level translation. In this work, we extract parallel paragraphs from Paracrawl parallel webpages using automatic sentence alignments and we use the extracted parallel paragraphs as parallel documents for training document-level translation models. We show that document-level NMT models trained with only parallel paragraphs from Paracrawl can be used to translate real documents from TED, News and Europarl, outperforming sentence-level NMT models. We also perform a targeted pronoun evaluation and show that document-level models trained with Paracrawl data can help context-aware pronoun translation.

arxiv情報

著者 Yusser Al Ghussin,Jingyi Zhang,Josef van Genabith
発行日 2023-04-20 11:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク