Towards Tailored Recovery of Lexical Diversity in Literary Machine Translation

要約

機械翻訳は人間による翻訳よりも語彙力が劣ることがわかっています。
MT による語彙の多様性の喪失は、何が書かれているかだけでなく、どのように書かれているかも重要であるため、文献の自動翻訳において問題を引き起こします。
MT の語彙の多様性を高めるための現在の方法は厳格です。
しかし、私たちが実証しているように、語彙の多様性の程度は小説によって大きく異なります。
したがって、語彙の多様性を厳密に増加させることを目指すのではなく、機械翻訳プロセスで失われたものを回復するものとしてタスクを再構成します。
我々は、原文と翻訳文を区別する分類子を使用して翻訳候補を再ランク付けすることからなる新しいアプローチを提案します。
私たちは 31 冊の英語からオランダ語への書籍翻訳に対するアプローチを評価し、特定の書籍については、私たちのアプローチが人間による翻訳に近い語彙多様性スコアを取得していることがわかりました。

要約(オリジナル)

Machine translations are found to be lexically poorer than human translations. The loss of lexical diversity through MT poses an issue in the automatic translation of literature, where it matters not only what is written, but also how it is written. Current methods for increasing lexical diversity in MT are rigid. Yet, as we demonstrate, the degree of lexical diversity can vary considerably across different novels. Thus, rather than aiming for the rigid increase of lexical diversity, we reframe the task as recovering what is lost in the machine translation process. We propose a novel approach that consists of reranking translation candidates with a classifier that distinguishes between original and translated text. We evaluate our approach on 31 English-to-Dutch book translations, and find that, for certain books, our approach retrieves lexical diversity scores that are close to human translation.

arxiv情報

著者 Esther Ploeger,Huiyuan Lai,Rik van Noord,Antonio Toral
発行日 2024-08-30 14:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク