Large Language Models Are State-of-the-Art Evaluators of Translation Quality

要約

翻訳品質を評価するための GPT ベースの指標である GEMBA について説明します。これは、参照翻訳がある場合とない場合の両方で機能します。
私たちの評価では、参照の可用性に基づいて、2 つのモードで 4 つのプロンプト バリアントを比較して、ゼロ ショット プロンプトに焦点を当てています。
ChatGPT を含む 7 つのバージョンの GPT モデルを調査します。
翻訳品質評価の方法は、GPT 3.5 以上のモデルでのみ機能することを示しています。
WMT22 のメトリクス共有タスクの結果と比較すると、MQM ベースのヒューマン ラベルと比較した場合、私たちの方法は両方のモードで最先端の精度を達成しています。
私たちの結果は、WMT22 メトリクスの 3 つの共有タスク言語ペアすべて、つまり英語からドイツ語、英語からロシア語、中国語から英語のシステム レベルで有効です。
これは、翻訳の品質評価のための事前トレーニング済みの生成的な大規模言語モデルの有用性を初めて垣間見せます。
この作業で説明されている実験に使用されたすべてのコードとプロンプト テンプレート、および対応するすべてのスコアリング結果を公開して、外部検証と再現性を可能にします。

要約(オリジナル)

We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate seven versions of GPT models, including ChatGPT. We show that our method for translation quality assessment only works with GPT 3.5 and larger models. Comparing to results from WMT22’s Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility.

arxiv情報

著者 Tom Kocmi,Christian Federmann
発行日 2023-02-28 12:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク