Unify word-level and span-level tasks: NJUNLP’s Participation for the WMT2023 Quality Estimation Shared Task

要約

WMT 2023 品質評価 (QE) 共有タスクに対する NJUNLP チームの提出物を紹介します。
私たちのチームは、次の 2 つのサブタスクすべてについて、英語とドイツ語の言語ペアの予測を提出しました。(i) 文および単語レベルの品質予測。
(ii) きめ細かいエラー範囲の検出。
今年は、NJUQE フレームワーク (https://github.com/NJUNLP/njuqe) に基づいて、QE のための疑似データ手法をさらに検討します。
WMT 変換タスクからの並列データを使用して、疑似 MQM データを生成します。
XLMR の大規模モデルを疑似 QE データで事前トレーニングし、実際の QE データで微調整します。
どちらの段階でも、文レベルのスコアと単語レベルのタグを共同で学習します。
経験的に、パフォーマンスを向上させる主要なハイパーパラメータを見つけるために実験を実施します。
技術的には、ワードレベルの出力を詳細なエラー範囲の結果に変換する簡単な方法を提案します。
全体として、私たちのモデルは、英語-ドイツ語において、単語レベルおよび詳細なエラー スパン検出サブタスクの両方で、かなりの差を付けて最高の結果を達成しました。

要約(オリジナル)

We introduce the submissions of the NJUNLP team to the WMT 2023 Quality Estimation (QE) shared task. Our team submitted predictions for the English-German language pair on all two sub-tasks: (i) sentence- and word-level quality prediction; and (ii) fine-grained error span detection. This year, we further explore pseudo data methods for QE based on NJUQE framework (https://github.com/NJUNLP/njuqe). We generate pseudo MQM data using parallel data from the WMT translation task. We pre-train the XLMR large model on pseudo QE data, then fine-tune it on real QE data. At both stages, we jointly learn sentence-level scores and word-level tags. Empirically, we conduct experiments to find the key hyper-parameters that improve the performance. Technically, we propose a simple method that covert the word-level outputs to fine-grained error span results. Overall, our models achieved the best results in English-German for both word-level and fine-grained error span detection sub-tasks by a considerable margin.

arxiv情報

著者 Xiang Geng,Zhejian Lai,Yu Zhang,Shimin Tao,Hao Yang,Jiajun Chen,Shujian Huang
発行日 2023-10-25 11:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク