要約
多様なタスク全体の言語モデル(LMS)の顕著な能力にもかかわらず、単一のモデルは一貫して他のモデルを上回ることはなく、高価な再訓練なしで強度を組み合わせる効率的な方法を必要とします。
パラメーターの平均化やタスクガイド付き融合などの既存のモデルのマージ手法は、データ依存の計算に依存しているか、内部知識を維持し、堅牢性とスケーラビリティを制限することがよくあります。
潜在的なセマンティックアライメントを活用してLMSを微調整されたレイヤーワイズレベルで融合する、小説、データフリー、およびトレーニングフリーのアプローチであるSeme(セマンティックベースのマージ)を紹介します。
以前の作業とは異なり、Semeはモデルの動作を保持するだけでなく、内部知識を明示的に安定させ、LM融合の重要なギャップに対処します。
多様なアーキテクチャとタスク全体の広範な実験を通じて、SEMEはパフォーマンスと効率の両方で既存の方法を上回り、外部データへの依存を排除することを実証します。
私たちの仕事は、知識を意識したモデルの合併のための新しいパラダイムを確立し、LMSの意味構造に関する洞察を提供し、よりスケーラブルで解釈可能なモデル構成への道を開きます。
要約(オリジナル)
Despite the remarkable capabilities of Language Models (LMs) across diverse tasks, no single model consistently outperforms others, necessitating efficient methods to combine their strengths without expensive retraining. Existing model merging techniques, such as parameter averaging and task-guided fusion, often rely on data-dependent computations or fail to preserve internal knowledge, limiting their robustness and scalability. We introduce SeMe (Semantic-based Merging), a novel, data-free, and training-free approach that leverages latent semantic alignment to merge LMs at a fine-grained, layer-wise level. Unlike prior work, SeMe not only preserves model behaviors but also explicitly stabilizes internal knowledge, addressing a critical gap in LM fusion. Through extensive experiments across diverse architectures and tasks, we demonstrate that SeMe outperforms existing methods in both performance and efficiency while eliminating reliance on external data. Our work establishes a new paradigm for knowledge-aware model merging and provides insights into the semantic structure of LMs, paving the way for more scalable and interpretable model composition.
arxiv情報
著者 | Jian Gu,Aldeida Aleti,Chunyang Chen,Hongyu Zhang |
発行日 | 2025-05-26 15:45:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google