Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages

要約

多言語事前トレーニング済み言語モデル (MPLM) は、最近の実証的な言語間転移研究で強力な多言語性を示しています。
この論文では、高リソース言語 (HRL) から取得した意味的に類似した文でコンテキストを拡張することで、低リソース言語 (LRL) でのゼロショット パフォーマンスを向上させる、Prompts Augmented by Retrieval Crosslingually (PARC) パイプラインを提案します。
プロンプトを表示します。
PARC は、ラベルなし設定 (+5.1%) とラベル付き設定 (+16.3%) の両方で、6 言語ファミリーをカバーする 10 個の LRL にわたる多言語並列テスト セットを使用して、3 つの下流タスク (バイナリ感情分類、トピック分類、自然言語推論) のゼロショット パフォーマンスを向上させます。
%)。
PARC ラベル付きも、微調整ベースラインを 3.7% 上回っています。
一方では言語間の転送パフォーマンスと、もう一方では高リソース言語と低リソース言語の類似性および低リソースの事前トレーニング データの量との間に有意な正の相関関係があることがわかりました。
堅牢性の分析により、PARC には、より強力な MPLM を使用してさらに強力なパフォーマンスを達成できる可能性があることが示唆されています。

要約(オリジナル)

Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs.

arxiv情報

著者 Ercong Nie,Sheng Liang,Helmut Schmid,Hinrich Schütze
発行日 2023-07-10 22:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク