Poor Man’s Quality Estimation: Predicting Reference-Based MT Metrics Without the Reference

要約

【タイトル】貧乏人の品質推定:リファレンスなしでリファレンスに基づくMTメトリックを予測する 【要約】 マシン翻訳の品質評価(QE)は、リファレンスを見ずに翻訳の仮説の人間の判断を予測するものである。事前学習された言語モデルに基づく最新のQEシステムは人間の判断との驚くべき相関を得ているが、計算機資源が豊富で人の注釈が必要とされるため、遅くて高価である。これらの制限に対処するために、我々はメトリック推定(ME)の問題を定義し、リファレンスなしにも自動メトリックスコアを予測するようにする。文レベルで機能するモデルにより、リファレンスにアクセスせずにも自動メトリックス(BLEUに対して$\rho$=60%、他のメトリックに対して$\rho$=51%)を推定できることを示した。自動メトリックが人間の判断と相関しているため、MEタスクをQEモデルの事前学習に活用できる。QEタスクでは、TERで事前学習することが、スクラッチ学習に比べて$\rho$=23%優れていることが分かった。

【要点】
– QEは翻訳の人間の判断を予測するもの
– 最新のQEシステムは事前学習された言語モデルに基づいているが、計算資源が豊富で人の注釈が必要で遅くて高価である
– MEはリファレンスなしでも自動メトリックスコアを予測するようにするもの
– 文レベルで機能するモデルにより、リファレンスにアクセスせずにも自動メトリックス(BLEUに対して$\rho$=60%、他のメトリックに対して$\rho$=51%)を推定できることを示した
– 自動メトリックと人間の判断が相関しているため、MEタスクをQEモデルの事前学習に活用できる
– TERで事前学習することが、スクラッチ学習に比べて$\rho$=23%優れていることが分かった

要約(オリジナル)

Machine translation quality estimation (QE) predicts human judgements of a translation hypothesis without seeing the reference. State-of-the-art QE systems based on pretrained language models have been achieving remarkable correlations with human judgements yet they are computationally heavy and require human annotations, which are slow and expensive to create. To address these limitations, we define the problem of metric estimation (ME) where one predicts the automated metric scores also without the reference. We show that even without access to the reference, our model can estimate automated metrics ($\rho$=60% for BLEU, $\rho$=51% for other metrics) at the sentence-level. Because automated metrics correlate with human judgements, we can leverage the ME task for pre-training a QE model. For the QE task, we find that pre-training on TER is better ($\rho$=23%) than training for scratch ($\rho$=20%).

arxiv情報

著者 Vilém Zouhar,Shehzaad Dhuliawala,Wangchunshu Zhou,Nico Daheim,Tom Kocmi,Yuchen Eleanor Jiang,Mrinmaya Sachan
発行日 2023-04-25 13:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク