Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages

要約

タイトル:「低リソース言語のクロスリンガル情報検索強化プロンプト」

要約:本論文では、多言語事前学習言語モデル(MPLM)が最近のクロスリンガル転移研究で強い多言語性を発揮していることを踏まえ、高リソース言語(HRL)から検索される意味的に類似した文からプロンプトを補強することで、低リソース言語(LRL)のゼロショットパフォーマンス向上を目的とした「Prompts Augmented by Retrieval Crosslingually(PARC)」パイプラインを提案している。PARCは、10のLRL(6つの言語ファミリーをカバー)で、多言語パラレルテストセットを用いた3つのダウンストリームタスク(二値感情分類、トピック分類、自然言語推論)において、非ラベル設定(+5.1%)とラベル設定(+16.3%)のどちらにおいてもゼロショットパフォーマンスを向上させた。また、PARCラベルは、微調整のベースラインよりも3.7%優れていることがわかった。この研究では、クロスリンガル転送パフォーマンスと高低リソース言語間の類似性、低リソース事前学習データの量との間に有意な陽の相関関係があることが分かった。また、ロバストネス解析では、PARCはより強力なMPLMを用いることでさらに高いパフォーマンスを発揮する可能性があることが示唆された。

要約(オリジナル)

Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs.

arxiv情報

著者 Ercong Nie,Sheng Liang,Helmut Schmid,Hinrich Schütze
発行日 2023-05-02 19:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク