Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment

要約

多言語生成モデルは、大規模なコーパスでの事前トレーニングを通じて、優れた言語横断的なコンテキスト内学習機能を獲得します。
ただし、依然として高リソース言語に対するパフォーマンスの偏りが見られ、多言語の文表現の孤立した分布を学習するため、言語を越えた知識の伝達が妨げられる可能性があります。
このギャップを埋めるために、翻訳文のペアを活用した、シンプルかつ効果的な言語間の調整フレームワークを提案します。
多言語対比学習を通じてさまざまな言語にまたがる内部文表現を調整し、ターゲット言語での複数言語の指示に従うことで出力を調整します。
実験結果は、事前トレーニング トークンが 0.1 {\textperthousand} 未満であっても、アライメント フレームワークが生成言語モデルの言語間能力を大幅に向上させ、パフォーマンスのギャップを軽減することを示しています。
さらに分析を進めると、多言語モデルの内部多言語表現の分布が向上することが明らかになりました。

要約(オリジナル)

Multilingual generative models obtain remarkable cross-lingual in-context learning capabilities through pre-training on large-scale corpora. However, they still exhibit a performance bias toward high-resource languages and learn isolated distributions of multilingual sentence representations, which may hinder knowledge transfer across languages. To bridge this gap, we propose a simple yet effective cross-lingual alignment framework exploiting pairs of translation sentences. It aligns the internal sentence representations across different languages via multilingual contrastive learning and aligns outputs by following cross-lingual instructions in the target language. Experimental results show that even with less than 0.1 {\textperthousand} of pre-training tokens, our alignment framework significantly boosts the cross-lingual abilities of generative language models and mitigates the performance gap. Further analyses reveal that it results in a better internal multilingual representation distribution of multilingual models.

arxiv情報

著者 Chong Li,Shaonan Wang,Jiajun Zhang,Chengqing Zong
発行日 2024-06-12 12:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク