Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task


私たちは、品質評価 (QE) に関する WMT 2023 共有タスクに対する Unbabel と Instituto Superior T\’ecnico の共同貢献を紹介します。
私たちのチームは、文および単語レベルの品質予測 (タスク 1) と、きめ細かいエラー スパン検出 (タスク 2) のすべてのタスクに参加しました。
すべてのタスクについて、COMETKIWI-22 モデルに基づいて構築されています (Rei et al., 2022b)。
当社の多言語アプローチはすべてのタスクで第 1 位にランクされており、単語、スパン、センテンスレベルの粒度での品質推定において最先端のパフォーマンスに達しています。
以前の最新鋭の COMETKIWI-22 と比較して、人間の判断との相関性が大幅に向上しました (スピアマン ポイント最大 10)。
さらに、共有タスクに対する多言語の提出で 2 番目に優れた提出者を最大 3.8 絶対ポイントで上回りました。


We present the joint contribution of Unbabel and Instituto Superior T\’ecnico to the WMT 2023 Shared Task on Quality Estimation (QE). Our team participated on all tasks: sentence- and word-level quality prediction (task 1) and fine-grained error span detection (task 2). For all tasks, we build on the COMETKIWI-22 model (Rei et al., 2022b). Our multilingual approaches are ranked first for all tasks, reaching state-of-the-art performance for quality estimation at word-, span- and sentence-level granularity. Compared to the previous state-of-the-art COMETKIWI-22, we show large improvements in correlation with human judgements (up to 10 Spearman points). Moreover, we surpass the second-best multilingual submission to the shared-task with up to 3.8 absolute points.


著者 Ricardo Rei,Nuno M. Guerreiro,José Pombal,Daan van Stigt,Marcos Treviso,Luisa Coheur,José G. C. de Souza,André F. T. Martins
発行日 2023-09-21 09:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク