Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

要約

品質推定 (QE) は、ゴールドスタンダードの翻訳リファレンスを使用せずに、機械翻訳 (MT) システム出力の品質を予測するタスクです。
最先端の QE モデルは監視されています。トレーニングには、一部のデータセットに対する一部の MT システム出力の人間によるラベル付けされた品質が必要であり、ドメイン依存および MT システム依存になります。
教師なし QE に関する研究が行われています。これには、MT システムへのガラスボックス アクセス、または QE モデルをトレーニングするための合成誤差を生成する並列 MT データが必要です。
この論文では、摂動ベースの QE を紹介します。これは、摂動された入力ソース文に対する MT システム出力を分析するだけで機能する、単語レベルの品質推定アプローチです。
私たちのアプローチは教師なしで説明可能であり、不透明な内部プロセスを持つ現在著名な大規模言語モデル (LLM) を含む、あらゆるタイプのブラックボックス MT システムを評価できます。
ラベル付き QE データのない言語指示の場合、私たちのアプローチは、WMT21 共有タスクに対するゼロショット教師ありアプローチと同等以上のパフォーマンスを示します。
私たちのアプローチは、教師あり QE よりも翻訳中のジェンダーバイアスや語義の曖昧さ回避エラーの検出に優れており、ドメイン外での使用に対する堅牢性を示しています。
従来とは異なる翻訳プロンプト LLM でエラーを検出すると、パフォーマンス ギャップがさらに大きくなります。これは、私たちのアプローチがさまざまな MT システムに対してより一般化できることを示しています。
私たちは、どの入力ソース単語が特定の MT 出力単語に影響を与えるかを示す、私たちのアプローチの説明可能性を実証する例を示します。

要約(オリジナル)

Quality Estimation (QE) is the task of predicting the quality of Machine Translation (MT) system output, without using any gold-standard translation references. State-of-the-art QE models are supervised: they require human-labeled quality of some MT system output on some datasets for training, making them domain-dependent and MT-system-dependent. There has been research on unsupervised QE, which requires glass-box access to the MT systems, or parallel MT data to generate synthetic errors for training QE models. In this paper, we present Perturbation-based QE – a word-level Quality Estimation approach that works simply by analyzing MT system output on perturbed input source sentences. Our approach is unsupervised, explainable, and can evaluate any type of blackbox MT systems, including the currently prominent large language models (LLMs) with opaque internal processes. For language directions with no labeled QE data, our approach has similar or better performance than the zero-shot supervised approach on the WMT21 shared task. Our approach is better at detecting gender bias and word-sense-disambiguation errors in translation than supervised QE, indicating its robustness to out-of-domain usage. The performance gap is larger when detecting errors on a nontraditional translation-prompting LLM, indicating that our approach is more generalizable to different MT systems. We give examples demonstrating our approach’s explainability power, where it shows which input source words have influence on a certain MT output word.

arxiv情報

著者 Tu Anh Dinh,Jan Niehues
発行日 2023-07-13 07:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク