要約
ニューラル機械翻訳 (NMT) システムは、トレーニング データに存在する語彙バイアスを増幅し、出力翻訳で人為的に言語を貧弱なものにします。
これらの言語レベルの特性により、自動翻訳は、もともとその言語で書かれたテキストや人間による翻訳とは異なり、たとえば評価データセットの作成における有用性が妨げられます。
NMT の自然性を高める試みは、翻訳の精度を犠牲にして語彙の多様性を高めるため、コンテンツの保存という点で不十分になる可能性があります。
人間のフィードバック フレームワークからの強化学習に触発され、自然さとコンテンツの保存の両方を評価する新しい方法を導入します。
私たちは、機械翻訳と人間による翻訳を減らすことを目的として、より自然な翻訳を生成するために複数の視点を試しています。
英語からオランダ語への文学翻訳に関する私たちの方法を評価したところ、私たちの最良のモデルは、翻訳精度を損なうことなく、語彙が豊富で、人間が書いた言語のより多くの特性を示す翻訳を生成することがわかりました。
要約(オリジナル)
Neural machine translation (NMT) systems amplify lexical biases present in their training data, leading to artificially impoverished language in output translations. These language-level characteristics render automatic translations different from text originally written in a language and human translations, which hinders their usefulness in for example creating evaluation datasets. Attempts to increase naturalness in NMT can fall short in terms of content preservation, where increased lexical diversity comes at the cost of translation accuracy. Inspired by the reinforcement learning from human feedback framework, we introduce a novel method that rewards both naturalness and content preservation. We experiment with multiple perspectives to produce more natural translations, aiming at reducing machine and human translationese. We evaluate our method on English-to-Dutch literary translation, and find that our best model produces translations that are lexically richer and exhibit more properties of human-written language, without loss in translation accuracy.
arxiv情報
| 著者 | Huiyuan Lai,Esther Ploeger,Rik van Noord,Antonio Toral |
| 発行日 | 2024-12-11 15:42:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google