Machine Translation Testing via Syntactic Tree Pruning

要約

機械翻訳システムは私たちの日常生活に広く導入され、生活をより簡単かつ便利にしています。
残念ながら、誤った翻訳は経済的損失などの重大な結果を招く可能性があります。
そのためには、機械翻訳システムの精度と信頼性を向上させる必要があります。
ただし、基盤となるニューラル モデルが複雑で扱いにくいため、機械翻訳システムをテストするのは困難です。
これらの課題に取り組むために、機械翻訳システムを検証するための構文ツリー枝刈り (STP) による新しい変成テスト アプローチを提案します。
私たちの重要な洞察は、刈り取られた文は元の文と比較して同様の重要な意味を持つはずであるということです。
具体的には、STP (1) は、構文ツリー表現のレベルでの基本的な文構造と依存関係による、中核となる意味論を保持する枝刈り戦略を提案します。
(2)変形関係に基づいて原文ペアを生成する。
(3) 翻訳がバグオブワード モデルによって一貫性特性を壊す疑わしい問題を報告します。
さらに、1,200 の原文を入力として、2 つの最先端の機械翻訳システム (つまり、Google Translate と Bing Microsoft Translator) で STP を評価します。
その結果、STP は、Google 翻訳では 5,073 個の固有の誤った翻訳を、Bing Microsoft Translator では 5,100 個の固有の誤った翻訳を (最先端の技術より 400% 以上)、それぞれ 64.5% と 65.4% の精度で正確に検出できることがわかりました。
報告されている誤訳の種類はさまざまで、その90%以上は最先端の技術では発見できません。
STP に特有の誤った翻訳は 9,393 件あり、これは最先端の技術よりも 711.9% 多くなります。
さらに、STP は元の文の翻訳エラーを検出するのに非常に効果的で、再現率は 74.0% に達し、最先端の技術を平均 55.1% 改善しました。

要約(オリジナル)

Machine translation systems have been widely adopted in our daily life, making life easier and more convenient. Unfortunately, erroneous translations may result in severe consequences, such as financial losses. This requires to improve the accuracy and the reliability of machine translation systems. However, it is challenging to test machine translation systems because of the complexity and intractability of the underlying neural models. To tackle these challenges, we propose a novel metamorphic testing approach by syntactic tree pruning (STP) to validate machine translation systems. Our key insight is that a pruned sentence should have similar crucial semantics compared with the original sentence. Specifically, STP (1) proposes a core semantics-preserving pruning strategy by basic sentence structure and dependency relations on the level of syntactic tree representation; (2) generates source sentence pairs based on the metamorphic relation; (3) reports suspicious issues whose translations break the consistency property by a bag-of-words model. We further evaluate STP on two state-of-the-art machine translation systems (i.e., Google Translate and Bing Microsoft Translator) with 1,200 source sentences as inputs. The results show that STP can accurately find 5,073 unique erroneous translations in Google Translate and 5,100 unique erroneous translations in Bing Microsoft Translator (400% more than state-of-the-art techniques), with 64.5% and 65.4% precision, respectively. The reported erroneous translations vary in types and more than 90% of them cannot be found by state-of-the-art techniques. There are 9,393 erroneous translations unique to STP, which is 711.9% more than state-of-the-art techniques. Moreover, STP is quite effective to detect translation errors for the original sentences with a recall reaching 74.0%, improving state-of-the-art techniques by 55.1% on average.

arxiv情報

著者 Quanjun Zhang,Juan Zhai,Chunrong Fang,Jiawei Liu,Weisong Sun,Haichuan Hu,Qingyu Wang
発行日 2024-01-01 13:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク