要約
私たちは、トランスフォーマー言語アダプターの動作を分析します。トランスフォーマー言語アダプターは、その予測を新しいターゲット言語に適応させるために、凍結された言語モデル上でトレーニングされた小さなモジュールです。
適応された予測はほとんどがモデルがトレーニングされたソース言語で進化するのに対し、ターゲット言語はモデルの最後の層でのみ発音されることを示します。
さらに、適応プロセスは段階的に行われ、レイヤー全体に分散されるため、適応パフォーマンスを低下させることなく、アダプターの小さなグループをスキップすることができます。
最後に、アダプターが「分離された」部分空間ではなく、モデルの構造をほぼ維持しながら、モデルの凍結された表現空間の上で動作することを示します。
私たちの調査結果は、言語モデルの新しい言語への適応プロセスについてより深い視点を提供し、基礎となるモデルによって課せられる制約を示し、その効率を高めるための実践的な意味を紹介します。
要約(オリジナル)
We analyze the operation of transformer language adapters, which are small modules trained on top of a frozen language model to adapt its predictions to new target languages. We show that adapted predictions mostly evolve in the source language the model was trained on, while the target language becomes pronounced only in the very last layers of the model. Moreover, the adaptation process is gradual and distributed across layers, where it is possible to skip small groups of adapters without decreasing adaptation performance. Last, we show that adapters operate on top of the model’s frozen representation space while largely preserving its structure, rather than on an ‘isolated’ subspace. Our findings provide a deeper view into the adaptation process of language models to new languages, showcasing the constraints imposed on it by the underlying model and introduces practical implications to enhance its efficiency.
arxiv情報
著者 | Jesujoba O. Alabi,Marius Mosbach,Matan Eyal,Dietrich Klakow,Mor Geva |
発行日 | 2024-02-20 16:53:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google