要約
機械翻訳を手動または自動で評価するためのほぼすべてのフレームワークは、MT 出力の品質を 1 つの数値で特徴付けます。
例外は、スコアリングのための品質次元 (スタイル、流暢さ、正確さ、用語など) のきめ細かいオントロジーを提供する多次元品質メトリクス (MQM) フレームワークです。
これまでの研究では、MQM アノテーションの実現可能性が実証されてきましたが、リソースが不足しているため、私たちの知る限り、新規テキストの MQM スコアを予測する計算モデルはありません。
この論文では、(a) 英語と韓国語の言語ペアに対する 1200 文の MQM 評価ベンチマークを提供し、(b) SOTA 言語モデルを使用して複数の MQM スコアを同時に予測するマルチタスク問題として MT 評価を再構成することにより、これらの欠点に対処します。
、リファレンスベースの MT 評価セットアップとリファレンスフリーの品質推定 (QE) セットアップの両方で。
参照ベースのモデルは精度に関して優位性を維持しながら、スタイルの次元では参照フリーのセットアップが対応するセットアップよりも優れていることがわかりました。
全体として、RemBERT が最も有望なモデルとして浮上しています。
評価を通じて、よりきめ細かく解釈可能な方法で翻訳の品質に関する洞察を提供します。
要約(オリジナル)
Almost all frameworks for the manual or automatic evaluation of machine translation characterize the quality of an MT output with a single number. An exception is the Multidimensional Quality Metrics (MQM) framework which offers a fine-grained ontology of quality dimensions for scoring (such as style, fluency, accuracy, and terminology). Previous studies have demonstrated the feasibility of MQM annotation but there are, to our knowledge, no computational models that predict MQM scores for novel texts, due to a lack of resources. In this paper, we address these shortcomings by (a) providing a 1200-sentence MQM evaluation benchmark for the language pair English-Korean and (b) reframing MT evaluation as the multi-task problem of simultaneously predicting several MQM scores using SOTA language models, both in a reference-based MT evaluation setup and a reference-free quality estimation (QE) setup. We find that reference-free setup outperforms its counterpart in the style dimension while reference-based models retain an edge regarding accuracy. Overall, RemBERT emerges as the most promising model. Through our evaluation, we offer an insight into the translation quality in a more fine-grained, interpretable manner.
arxiv情報
著者 | Dojun Park,Sebastian Padó |
発行日 | 2024-03-19 12:02:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google