Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

要約

既存の大型言語モデル(LLMS)の新しい言語を継続的に拡大することは、強力な多言語LLMを構築するための有望でありながら挑戦的なアプローチです。
最大の課題は、古い言語の熟練した能力を維持しながら、モデルを継続的に新しい言語を学習させることです。
これを達成するために、最近の研究では、新しい専門家を追加することで新しい言語を拡張し、元のモデルバックボーン(古い専門家)に対応するトークンをルーティングすることにより、古い言語の壊滅的な忘れを避けるために、専門家(MOE)の混合物(MOE)アーキテクチャを利用しています。
直感的ではありますが、この種の方法は、新しい言語を拡張するときにパラメーターコストであり、まだ古い言語のパフォーマンスに影響を与えます。
これらの制限に対処するために、LLMSのさまざまなレイヤーの言語特性を分析し、レイヤーワーカスの専門家配分アルゴリズム(Layermoe)を提案して、各レイヤーの新しい専門家の適切な数を決定します。
具体的には、LLMの異なるレイヤーが言語間で異なる表現の類似性を示し、各レイヤーに専門家を割り当てるインジケータとしての類似性、つまり類似性が高いほど専門家が少ないことがわかります。
さらに、古い言語の忘却をさらに緩和するために、レイヤー上のルーターネットワークの前に分類器を追加し、古い言語トークンのルーティングを導くために類似性が高くなります。
実験結果は、私たちの方法が以前の最先端のベースラインよりも優れていることを示しています。単一拡張設定の専門家が60%少なく、生涯拡大設定の専門家が33.3%少なく、私たちの方法の有効性を示しています。

要約(オリジナル)

Continually expanding new languages for existing large language models (LLMs) is a promising yet challenging approach to building powerful multilingual LLMs. The biggest challenge is to make the model continuously learn new languages while preserving the proficient ability of old languages. To achieve this, recent work utilizes the Mixture-of-Experts (MoE) architecture to expand new languages by adding new experts and avoid catastrophic forgetting of old languages by routing corresponding tokens to the original model backbone (old experts). Although intuitive, this kind of method is parameter-costly when expanding new languages and still inevitably impacts the performance of old languages. To address these limitations, we analyze the language characteristics of different layers in LLMs and propose a layer-wise expert allocation algorithm (LayerMoE) to determine the appropriate number of new experts for each layer. Specifically, we find different layers in LLMs exhibit different representation similarities between languages and then utilize the similarity as the indicator to allocate experts for each layer, i.e., the higher similarity, the fewer experts. Additionally, to further mitigate the forgetting of old languages, we add a classifier in front of the router network on the layers with higher similarity to guide the routing of old language tokens. Experimental results show that our method outperforms the previous state-of-the-art baseline with 60% fewer experts in the single-expansion setting and with 33.3% fewer experts in the lifelong-expansion setting, demonstrating the effectiveness of our method.

arxiv情報

著者 Xue Zhang,Yunlong Liang,Fandong Meng,Songming Zhang,Yufeng Chen,Jinan Xu,Jie Zhou
発行日 2025-05-28 16:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク