要約
数学的推論やコーディングなどのドメインでの専門的な大手言語モデル(LLMS)の最近の成功により、これらの専門家LLMを統合された混合混合物(MOE)モデルに統合する方法への関心が高まって、パフォーマンスを向上させることを目標としています。
一般的なタスクに対する有効性を保持しながら、各ドメインで。
ただし、専門家モデルの効果的なマージは、特に非常に多様な体重パラメーターまたは異なるアーキテクチャを持つモデルでは、オープンな課題のままです。
最先端のMOEマージメソッドは、均一なモデルアーキテクチャでのみ機能し、パラメーター干渉に対処せず、パフォーマンスを回復するために合併したMOEの広範な微調整が必要な、エキスパートレイヤーをマージするための単純な非加重平均化に依存しています。
これらの制限に対処するために、このペーパーでは、パラメーター干渉を緩和する戦略、ヒューリスティックをルーティングしてMoe微調整の必要性を減らすための新しいMoeマージテクニック、およびさまざまなアーキテクチャと専門家を統合するための新しい方法を紹介します。
複数のドメインにわたる広範な実験は、提案された方法の有効性を示し、微調整コストを削減し、最先端の方法のパフォーマンスを改善し、MOE合併の適用性を拡大します。
要約(オリジナル)
The recent success of specialized Large Language Models (LLMs) in domains such as mathematical reasoning and coding has led to growing interest in methods for merging these expert LLMs into a unified Mixture-of-Experts (MoE) model, with the goal of enhancing performance in each domain while retaining effectiveness on general tasks. However, the effective merging of expert models remains an open challenge, especially for models with highly divergent weight parameters or different architectures. State-of-the-art MoE merging methods only work with homogeneous model architectures and rely on simple unweighted averaging to merge expert layers, which does not address parameter interference and requires extensive fine-tuning of the merged MoE to restore performance. To address these limitations, this paper introduces new MoE merging techniques, including strategies to mitigate parameter interference, routing heuristics to reduce the need for MoE fine-tuning, and a novel method for merging experts with different architectures. Extensive experiments across multiple domains demonstrate the effectiveness of our proposed methods, reducing fine-tuning costs, improving performance over state-of-the-art methods, and expanding the applicability of MoE merging.
arxiv情報
著者 | Yuhang Zhou,Giannis Karamanolakis,Victor Soto,Anna Rumshisky,Mayank Kulkarni,Furong Huang,Wei Ai,Jianhua Lu |
発行日 | 2025-02-17 16:51:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google