Audience-specific Explanations for Machine Translation

要約

機械翻訳でよくある問題は、特定の単語を翻訳したとしても、文化的背景の違いにより、ターゲット言語の聴衆に理解できない可能性があるということです。
この問題を解決する解決策は、これらの単語に説明を追加することです。
したがって、最初のステップでは、これらの単語またはフレーズを識別する必要があります。
この研究では、並列コーパスから説明例を抽出する手法を検討します。
ただし、説明する必要がある単語を含む文が少ないため、トレーニング データセットの構築が非常に困難になります。
この研究では、大規模な並列コーパスからこれらの説明を抽出する半自動手法を提案します。
英語→ドイツ語のペアに関する実験では、私たちの方法では、元の文の 1.9% のみに説明が含まれるのに対し、文の 10% 以上に説明が含まれるように文を抽出できることがわかりました。
さらに、英語→フランス語および英語→中国語の言語ペアに関する実験でも同様の結論が示されています。
したがって、これは説明データセットを作成するための重要な最初の自動ステップです。
さらに、この手法が 3 つの言語ペアすべてに対して堅牢であることを示します。

要約(オリジナル)

In machine translation, a common problem is that the translation of certain words even if translated can cause incomprehension of the target language audience due to different cultural backgrounds. A solution to solve this problem is to add explanations for these words. In a first step, we therefore need to identify these words or phrases. In this work we explore techniques to extract example explanations from a parallel corpus. However, the sparsity of sentences containing words that need to be explained makes building the training dataset extremely difficult. In this work, we propose a semi-automatic technique to extract these explanations from a large parallel corpus. Experiments on English->German language pair show that our method is able to extract sentence so that more than 10% of the sentences contain explanation, while only 1.9% of the original sentences contain explanations. In addition, experiments on English->French and English->Chinese language pairs also show similar conclusions. This is therefore an essential first automatic step to create a explanation dataset. Furthermore we show that the technique is robust for all three language pairs.

arxiv情報

著者 Renhan Lou,Jan Niehues
発行日 2023-09-22 17:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク