Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

要約

品質推定(QE)とは、機械翻訳(MT)システムの出力品質を予測するタスクであり、ゴールドスタンダードの翻訳リファレンスは一切使用しない。最新のQEモデルは教師ありモデルであり、学習には、あるデータセットにおけるMTシステム出力の品質を人間がラベル付けする必要があり、ドメイン依存、MTシステム依存のモデルとなっています。しかし、教師なしQEの研究も行われており、その場合、QEモデルの学習に必要な合成エラーを生成するために、MTシステムへのグラスボックスでのアクセスや並列MTデータが必要となる。本論文では、Perturbation-based QE(摂動に基づく品質推定)を提案する。このアプローチは、摂動された入力原文に対するMTシステムの出力を分析するだけで、単語レベルの品質推定ができる。本アプローチは教師なし、説明可能であり、内部処理が不透明な現在著名な大規模言語モデル(LLM)を含む、あらゆるタイプのブラックボックスMTシステムを評価することができる。ラベル付きQEデータを持たない言語方向については、我々のアプローチは、WMT21共有タスクのゼロショット教師付きアプローチと同等かそれ以上の性能を持つ。我々のアプローチは、教師ありQEよりも、翻訳におけるジェンダーバイアスと語義曖昧性解消エラーの検出において優れており、ドメイン外での使用に対する頑健性を示しています。性能差は、非伝統的な翻訳促進LLMのエラーを検出した場合に大きくなり、我々のアプローチが異なるMTシステムに対してより一般的であることを示している。また、本アプローチの説明可能性を示す例として、どの入力原語があるMTの出力語に影響を与えるかを示す。

要約(オリジナル)

Quality Estimation (QE) is the task of predicting the quality of Machine Translation (MT) system output, without using any gold-standard translation references. State-of-the-art QE models are supervised: they require human-labeled quality of some MT system output on some datasets for training, making them domain-dependent and MT-system-dependent. There has been research on unsupervised QE, which requires glass-box access to the MT systems, or parallel MT data to generate synthetic errors for training QE models. In this paper, we present Perturbation-based QE – a word-level Quality Estimation approach that works simply by analyzing MT system output on perturbed input source sentences. Our approach is unsupervised, explainable, and can evaluate any type of blackbox MT systems, including the currently prominent large language models (LLMs) with opaque internal processes. For language directions with no labeled QE data, our approach has similar or better performance than the zero-shot supervised approach on the WMT21 shared task. Our approach is better at detecting gender bias and word-sense-disambiguation errors in translation than supervised QE, indicating its robustness to out-of-domain usage. The performance gap is larger when detecting errors on a nontraditional translation-prompting LLM, indicating that our approach is more generalizable to different MT systems. We give examples demonstrating our approach’s explainability power, where it shows which input source words have influence on a certain MT output word.

arxiv情報

著者 Tu Anh Dinh,Jan Niehues
発行日 2023-05-12 13:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 パーマリンク