Promoting Target Data in Context-aware Neural Machine Translation

要約

標準的なコンテキスト認識ニューラル機械翻訳 (NMT) は通常、並列ドキュメント レベルのデータに依存し、ソース コンテキストとターゲット コンテキストの両方を活用します。
特に連結ベースのアプローチは、文書レベルの NMT の強力なベースラインであり、ソースおよび/またはターゲットのコンテキスト文を翻訳対象の文の先頭に追加し、各側で同量のソース データとターゲット データを利用するモデル バリアントで状態を達成します。
最先端の結果。
この研究では、ドキュメントレベルの現象のほとんどがターゲット言語側に存在する情報に依存しているため、標準的な連結ベースのアプローチ内でターゲット データをさらに促進する必要があるかどうかを調査します。
私たちは、ターゲット コンテキストがソース言語の先頭に追加される新しい連結ベースのバリアントを、単独で、またはソース コンテキストと組み合わせて評価します。
英語 – ロシア語およびバスク語 – スペイン語での実験結果は、ソースにターゲット コンテキストを含めることで、ターゲット言語の現象が大幅に改善されることを示しています。
ソース依存の現象については、ソース内でターゲット言語コンテキストのみを使用すると、最先端の連結アプローチと同等か、わずかにパフォーマンスが劣りますが、ソース側でソースとターゲットのコンテキストを組み合わせると、全体的に大幅な向上が得られます。

要約(オリジナル)

Standard context-aware neural machine translation (NMT) typically relies on parallel document-level data, exploiting both source and target contexts. Concatenation-based approaches in particular, still a strong baseline for document-level NMT, prepend source and/or target context sentences to the sentences to be translated, with model variants that exploit equal amounts of source and target data on each side achieving state-of-the-art results. In this work, we investigate whether target data should be further promoted within standard concatenation-based approaches, as most document-level phenomena rely on information that is present on the target language side. We evaluate novel concatenation-based variants where the target context is prepended to the source language, either in isolation or in combination with the source context. Experimental results in English-Russian and Basque-Spanish show that including target context in the source leads to large improvements on target language phenomena. On source-dependent phenomena, using only target language context in the source achieves parity with state-of-the-art concatenation approaches, or slightly underperforms, whereas combining source and target context on the source side leads to significant gains across the board.

arxiv情報

著者 Harritxu Gete,Thierry Etchegoyhen
発行日 2024-02-09 11:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク