Improving Language Plasticity via Pretraining with Active Forgetting

要約

事前トレーニング済み言語モデル (PLM) は、現在、自然言語処理の主要なモデルです。
PLM の優れたダウンストリーム パフォーマンスにもかかわらず、PLM を新しい言語に適用するのは難しい場合があり、その機能が広くアクセスできるようにする上での障壁となっています。
これまでの研究では、新しい言語の新しい埋め込み層を学習することでこの問題に対処できることが示されていますが、そうすることはデータとコンピューティングの両方で非効率的です。
新しい言語にすぐに適応できる PLM を作成する簡単な方法として、事前トレーニング中にアクティブな忘却メカニズムを使用することを提案します。
具体的には、事前トレーニング中に K 回の更新ごとにエンベディング層をリセットすることで、PLM がメタ学習効果と同様に、限られた更新数内で新しいエンベディングを学習する能力を向上させることができます。
RoBERTa を使った実験では、忘却メカニズムで事前トレーニングされたモデルは、言語適応中により速い収束を示すだけでなく、特に英語から遠い言語では、低データ領域で標準モデルよりも優れたパフォーマンスを発揮することが示されています。

要約(オリジナル)

Pretrained language models (PLMs) are today the primary model for natural language processing. Despite their impressive downstream performance, it can be difficult to apply PLMs to new languages, a barrier to making their capabilities universally accessible. While prior work has shown it possible to address this issue by learning a new embedding layer for the new language, doing so is both data and compute inefficient. We propose to use an active forgetting mechanism during pretraining, as a simple way of creating PLMs that can quickly adapt to new languages. Concretely, by resetting the embedding layer every K updates during pretraining, we encourage the PLM to improve its ability of learning new embeddings within a limited number of updates, similar to a meta-learning effect. Experiments with RoBERTa show that models pretrained with our forgetting mechanism not only demonstrate faster convergence during language adaptation but also outperform standard ones in a low-data regime, particularly for languages that are distant from English.

arxiv情報

著者 Yihong Chen,Kelly Marchisio,Roberta Raileanu,David Ifeoluwa Adelani,Pontus Stenetorp,Sebastian Riedel,Mikel Artetxe
発行日 2024-01-12 12:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE パーマリンク