Alibaba-Translate China’s Submission for WMT 2022 Quality Estimation Shared Task

要約

このホワイト ペーパーでは、UniTE (Unified Translation Evaluation) という名前の Quality Estimation Shared Task での文レベルの MQM ベンチマークへの提出物を提示します。
具体的には、当社のシステムは UniTE のフレームワークを採用しています。これは、トレーニング中に 3 種類の入力形式を事前トレーニング済みの言語モデルと組み合わせたものです。
まず、継続的な事前トレーニング フェーズに疑似ラベル データの例を適用します。
特に、事前トレーニングと微調整の間のギャップを減らすために、データの刈り込みとランキングベースのスコア正規化戦略を使用します。
微調整段階では、過去数年間の WMT コンテストの直接評価 (DA) と多次元品質指標 (MQM) の両方のデータを使用します。
最後に、ソースのみの評価結果を収集し、バックボーンがそれぞれ XLM-R と InfoXLM である 2 つの UnITE モデルによって生成された予測をアンサンブルします。
結果は、私たちのモデルが多言語および英語-ロシア語の設定で総合ランキング 1 位、英語-ドイツ語および中国語-英語の設定で総合ランキング 2 位に達したことを示しており、今年の品質推定競争で比較的強いパフォーマンスを示しています。

要約(オリジナル)

In this paper, we present our submission to the sentence-level MQM benchmark at Quality Estimation Shared Task, named UniTE (Unified Translation Evaluation). Specifically, our systems employ the framework of UniTE, which combined three types of input formats during training with a pre-trained language model. First, we apply the pseudo-labeled data examples for the continuously pre-training phase. Notably, to reduce the gap between pre-training and fine-tuning, we use data pruning and a ranking-based score normalization strategy. For the fine-tuning phase, we use both Direct Assessment (DA) and Multidimensional Quality Metrics (MQM) data from past years’ WMT competitions. Finally, we collect the source-only evaluation results, and ensemble the predictions generated by two UniTE models, whose backbones are XLM-R and InfoXLM, respectively. Results show that our models reach 1st overall ranking in the Multilingual and English-Russian settings, and 2nd overall ranking in English-German and Chinese-English settings, showing relatively strong performances in this year’s quality estimation competition.

arxiv情報

著者 Keqin Bao,Yu Wan,Dayiheng Liu,Baosong Yang,Wenqiang Lei,Xiangnan He,Derek F. Wong,Jun Xie
発行日 2023-02-17 15:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク