Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task

要約

私たちは、品質評価 (QE) に関する WMT 2023 共有タスクに対する Unbabel と Instituto Superior T\’ecnico の共同貢献を紹介します。
私たちのチームは、文および単語レベルの品質予測 (タスク 1) と、きめ細かいエラー スパン検出 (タスク 2) のすべてのタスクに参加しました。
すべてのタスクについて、COMETKIWI-22 モデルに基づいて構築されています (Rei et al., 2022b)。
当社の多言語アプローチはすべてのタスクで第 1 位にランクされており、単語、スパン、センテンスレベルの粒度での品質推定において最先端のパフォーマンスに達しています。
以前の最新鋭の COMETKIWI-22 と比較して、人間の判断との相関性が大幅に向上しました (スピアマン ポイント最大 10)。
さらに、共有タスクに対する多言語の提出で 2 番目に優れた提出者を最大 3.8 絶対ポイントで上回りました。

要約(オリジナル)

We present the joint contribution of Unbabel and Instituto Superior T\’ecnico to the WMT 2023 Shared Task on Quality Estimation (QE). Our team participated on all tasks: sentence- and word-level quality prediction (task 1) and fine-grained error span detection (task 2). For all tasks, we build on the COMETKIWI-22 model (Rei et al., 2022b). Our multilingual approaches are ranked first for all tasks, reaching state-of-the-art performance for quality estimation at word-, span- and sentence-level granularity. Compared to the previous state-of-the-art COMETKIWI-22, we show large improvements in correlation with human judgements (up to 10 Spearman points). Moreover, we surpass the second-best multilingual submission to the shared-task with up to 3.8 absolute points.

arxiv情報

著者 Ricardo Rei,Nuno M. Guerreiro,José Pombal,Daan van Stigt,Marcos Treviso,Luisa Coheur,José G. C. de Souza,André F. T. Martins
発行日 2023-09-21 09:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク