Soft Language Clustering for Multilingual Model Pre-training

要約

多言語の事前トレーニング済み言語モデルは、優れた (ゼロショットの) 言語間伝達能力を実証していますが、ターゲット言語の類型がソース言語から離れている場合、または事前トレーニング データのサイズが制限されている場合、そのパフォーマンスは妨げられます。
この論文では、条件付きでインスタンスをエンコードするための柔軟なガイダンスとしてプロンプトをコンテキストに応じて取得する XLM-P を提案します。
当社の XLM-P により、(1) 言語不変および言語固有の知識を複数の言語にわたって軽量にモデリングでき、(2) 他の多言語事前トレーニング方法と簡単に統合できます。
テキスト分類、シーケンスラベル付け、質問応答、文検索を含む XTREME のタスクでは、提案手法で事前トレーニングされた基本言語モデルと大規模言語モデルの両方が一貫したパフォーマンスの向上を示します。
さらに、教師なし文検索における低リソース言語や、言語間の転送においてソース言語と大きく異なるターゲット言語に大きな利点をもたらします。

要約(オリジナル)

Multilingual pre-trained language models have demonstrated impressive (zero-shot) cross-lingual transfer abilities, however, their performance is hindered when the target language has distant typology from source languages or when pre-training data is limited in size. In this paper, we propose XLM-P, which contextually retrieves prompts as flexible guidance for encoding instances conditionally. Our XLM-P enables (1) lightweight modeling of language-invariant and language-specific knowledge across languages, and (2) easy integration with other multilingual pre-training methods. On the tasks of XTREME including text classification, sequence labeling, question answering, and sentence retrieval, both base- and large-size language models pre-trained with our proposed method exhibit consistent performance improvement. Furthermore, it provides substantial advantages for low-resource languages in unsupervised sentence retrieval and for target languages that differ greatly from the source language in cross-lingual transfer.

arxiv情報

著者 Jiali Zeng,Yufan Jiang,Yongjing Yin,Yi Jing,Fandong Meng,Binghuai Lin,Yunbo Cao,Jie Zhou
発行日 2023-06-13 08:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク