要約
形態素統語発散の観点から、機械翻訳(MT)と人力翻訳(HT)の大規模なきめ細かな比較分析を行った。3つの言語ペアと、原文と訳文の構造的差異として定義された2種類の乖離を比較した結果、MTの方がHTよりも一貫して保守的であり、形態統語の多様性が低く、収束パターンが多く、1対1のアラインメントが多いことがわかった。異なるデコーディングアルゴリズムの分析を通じて、この相違はビームサーチの使用により、MTがより収束的なパターンに偏るためであると考えられる。このバイアスは、収束パターンが訓練データの50%程度の頻度で出現する場合に最も増幅される。最後に、形態統語的乖離の大部分において、HTにおけるその存在はMTのパフォーマンス低下と相関しており、MTシステムにとってより大きな課題となっていることを示す。
要約(オリジナル)
We conduct a large-scale fine-grained comparative analysis of machine translations (MT) against human translations (HT) through the lens of morphosyntactic divergence. Across three language pairs and two types of divergence defined as the structural difference between the source and the target, MT is consistently more conservative than HT, with less morphosyntactic diversity, more convergent patterns, and more one-to-one alignments. Through analysis on different decoding algorithms, we attribute this discrepancy to the use of beam search that biases MT towards more convergent patterns. This bias is most amplified when the convergent pattern appears around 50% of the time in training data. Lastly, we show that for a majority of morphosyntactic divergences, their presence in HT is correlated with decreased MT performance, presenting a greater challenge for MT systems.
arxiv情報
著者 | Jiaming Luo,Colin Cherry,George Foster |
発行日 | 2024-01-02 20:05:56+00:00 |
arxivサイト | arxiv_id(pdf) |