要約
並列テキストの翻訳方向の検出には、機械翻訳のトレーニングと評価に応用できるだけでなく、盗作や偽造の申し立てを解決するなどの法医学的な応用もあります。
この研究では、$p(\text{translation}|\text{original})>p(\text{original}|\text{translation})$ という単純な仮説に基づいて、翻訳方向を検出するための教師なしアプローチを検討します。
、翻訳語または機械翻訳語におけるよく知られた単純化効果によって動機付けられます。
20 の翻訳方向にわたる大規模な多言語機械翻訳モデルを用いた実験では、高リソース言語ペアに対するアプローチの有効性を確認し、NMT が作成した翻訳では 82 ~ 96%、人間による翻訳では 60 ~ 81% の文書レベルの精度を達成しました。
使用されるモデルに応じて翻訳されます。
コードとデモは https://github.com/ZurichNLP/translation-direction-detection で入手できます。
要約(オリジナル)
Detecting the translation direction of parallel text has applications for machine translation training and evaluation, but also has forensic applications such as resolving plagiarism or forgery allegations. In this work, we explore an unsupervised approach to translation direction detection based on the simple hypothesis that $p(\text{translation}|\text{original})>p(\text{original}|\text{translation})$, motivated by the well-known simplification effect in translationese or machine-translationese. In experiments with massively multilingual machine translation models across 20 translation directions, we confirm the effectiveness of the approach for high-resource language pairs, achieving document-level accuracies of 82-96% for NMT-produced translations, and 60-81% for human translations, depending on the model used. Code and demo are available at https://github.com/ZurichNLP/translation-direction-detection
arxiv情報
著者 | Michelle Wastl,Jannis Vamvas,Rico Sennrich |
発行日 | 2024-01-12 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google