Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models

要約

大規模言語モデル (LLM) は、多数の NLP タスクにおいて優れた機能を発揮します。
ただし、英語以外の言語に対するこのようなモデルの有効性は限定されることがよくあります。
これまでの研究では、BERT や XLM-RoBERTa などのエンコーダ専用モデルが、その機能を英語から他の言語に言語間で見事に移行できることが示されています。
この研究では、デコーダのみの LLM で同様の言語間伝達を実現するために能動的忘却を使用する事前トレーニング戦略を提案します。
私たちは、能動的忘却で事前訓練された LLM が、新しい未知の言語に適応する際に非常に効果的であることを示します。
広範な実験を通じて、能動的忘却で事前トレーニングされた LLM は、より優れた多言語表現を学習でき、それが多くの下流タスクのパフォーマンス向上につながることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) demonstrate exceptional capabilities in a multitude of NLP tasks. However, the efficacy of such models to languages other than English is often limited. Prior works have shown that encoder-only models such as BERT or XLM-RoBERTa show impressive cross lingual transfer of their capabilities from English to other languages. In this work, we propose a pretraining strategy that uses active forgetting to achieve similar cross lingual transfer in decoder-only LLMs. We show that LLMs pretrained with active forgetting are highly effective when adapting to new and unseen languages. Through extensive experimentation, we find that LLMs pretrained with active forgetting are able to learn better multilingual representations which translates to better performance in many downstream tasks.

arxiv情報

著者 Divyanshu Aggarwal,Ashutosh Sathe,Sunayana Sitaram
発行日 2024-10-21 16:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク