Constrained Decoding for Cross-lingual Label Projection

要約

多言語LLMを利用したゼロショット異言語間伝達学習は、ラベル付けされた学習データを持たない低リソース言語のための一般的な学習パラダイムとなっている。しかし、単語やフレーズに対するきめ細かな予測を伴うNLPタスクでは、ゼロショット異言語間伝達学習の性能は教師ありの微調整手法に大きく遅れをとる。そのため、(1)高情報源言語(例えば英語)で利用可能な学習データをゴールドラベルと共に低情報源言語に翻訳する、あるいは(2)低情報源言語のテストデータを高情報源言語に翻訳して推論を実行し、予測されたスパンレベルのラベルを元のテストデータに投影することで、翻訳とラベル投影を利用して性能をさらに向上させるのが一般的である。しかし、最新のマーカーベースのラベル投影法は、翻訳モデルへの入力に余分なラベルマーカーが注入されるため、翻訳品質の劣化に悩まされている。本研究では、前述の問題を克服するために、ラベルプロジェクションのための制約付き復号化を活用する新たな方向性を探る。我々の新手法は、翻訳テキストの品質を保つことができるだけでなく、翻訳トレーニングデータと翻訳テストデータの両方のストラテジーに適用できる汎用性を持っている。この汎用性は、我々の実験により、テストデータを翻訳することで、訓練データのみを翻訳する場合と比較して性能が大幅に向上することが明らかになったため、極めて重要である。我々は、20の言語にまたがる2つのクロスリンガルタスク、すなわち、名前付き固有表現認識とイベント引数抽出で評価した。その結果、我々のアプローチは、最先端のマーカーベースの手法を大きなマージンで上回り、また、外部の単語アライメントに依存する他のラベル投影手法よりも優れた性能を示すことが実証された。

要約(オリジナル)

Zero-shot cross-lingual transfer utilizing multilingual LLMs has become a popular learning paradigm for low-resource languages with no labeled training data. However, for NLP tasks that involve fine-grained predictions on words and phrases, the performance of zero-shot cross-lingual transfer learning lags far behind supervised fine-tuning methods. Therefore, it is common to exploit translation and label projection to further improve the performance by (1) translating training data that is available in a high-resource language (e.g., English) together with the gold labels into low-resource languages, and/or (2) translating test data in low-resource languages to a high-source language to run inference on, then projecting the predicted span-level labels back onto the original test data. However, state-of-the-art marker-based label projection methods suffer from translation quality degradation due to the extra label markers injected in the input to the translation model. In this work, we explore a new direction that leverages constrained decoding for label projection to overcome the aforementioned issues. Our new method not only can preserve the quality of translated texts but also has the versatility of being applicable to both translating training and translating test data strategies. This versatility is crucial as our experiments reveal that translating test data can lead to a considerable boost in performance compared to translating only training data. We evaluate on two cross-lingual transfer tasks, namely Named Entity Recognition and Event Argument Extraction, spanning 20 languages. The results demonstrate that our approach outperforms the state-of-the-art marker-based method by a large margin and also shows better performance than other label projection methods that rely on external word alignment.

arxiv情報

著者 Duong Minh Le,Yang Chen,Alan Ritter,Wei Xu
発行日 2024-02-05 15:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク