Automatic Discrimination of Human and Neural Machine Translation in Multilingual Scenarios

要約

私たちは人間による翻訳と機械翻訳を自動的に区別するというタスクに取り組みます。
これまでのほとんどの研究とは対照的に、私たちは複数の言語と多言語の事前トレーニング済み言語モデルを考慮して、多言語設定で実験を実行します。
単一のソース言語 (この場合はドイツ語と英語) の並列データでトレーニングされた分類器は、機械翻訳がそのシステムとは別のシステムで作成された場合でも、異なるソース言語からの英語翻訳でも良好に機能できることを示します。
で訓練されました。
さらに、多言語分類器の入力にソース テキストを組み込むと、単言語分類器と比較して、(i) その精度と (ii) クロスシステム評価における堅牢性が向上することを実証します。
さらに、複数のソース言語 (ドイツ語、ロシア語、中国語) からのトレーニング データを使用すると、単言語分類器と多言語分類器の両方の精度が向上する傾向があることがわかりました。
最後に、バイリンガル分類子と複数のソース言語でトレーニングされた分類子は、文ではなく長いテキスト シーケンスでトレーニングされた方が有益であることを示します。

要約(オリジナル)

We tackle the task of automatically discriminating between human and machine translations. As opposed to most previous work, we perform experiments in a multilingual setting, considering multiple languages and multilingual pretrained language models. We show that a classifier trained on parallel data with a single source language (in our case German-English) can still perform well on English translations that come from different source languages, even when the machine translations were produced by other systems than the one it was trained on. Additionally, we demonstrate that incorporating the source text in the input of a multilingual classifier improves (i) its accuracy and (ii) its robustness on cross-system evaluation, compared to a monolingual classifier. Furthermore, we find that using training data from multiple source languages (German, Russian, and Chinese) tends to improve the accuracy of both monolingual and multilingual classifiers. Finally, we show that bilingual classifiers and classifiers trained on multiple source languages benefit from being trained on longer text sequences, rather than on sentences.

arxiv情報

著者 Malina Chichirau,Rik van Noord,Antonio Toral
発行日 2023-05-31 11:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク