Model Assembly Learning with Heterogeneous Layer Weight Merging

要約

モデルのマージは、複数のモデルのパラメーターを組み合わせることにより、追加のデータやトレーニングなしで一般的な機能を獲得します。
以前のアプローチは、順列不変性を使用してパラメーターを同じ損失流域に整列させることにより、線形モード接続を実現します。
このホワイトペーパーでは、モデルアセンブリ学習(MAL)を紹介します。これは、オープンエンドモデル動物園の多様なモデルのパラメーターを繰り返し統合して、基本モデルの機能を強化するモデルマージのための新しいパラダイムです。
同一のアーキテクチャを必要とする以前の作品とは異なり、MALはレイヤー間の異種アーキテクチャのマージと選択的パラメーターを許可します。
具体的には、ベースモデルには、複数の事前に訓練されたモデルの異なる層からパラメーターを組み込むことができます。
不均一なパラメーターの合併の条件と基本的な設定を体系的に調査し、ベースモデルとターゲットモデル間のレイヤー幅のすべての可能な不一致に対処します。
さらに、重要な法律を確立し、MALを効果的に実施するための実用的なガイドラインを提供します。

要約(オリジナル)

Model merging acquires general capabilities without extra data or training by combining multiple models’ parameters. Previous approaches achieve linear mode connectivity by aligning parameters into the same loss basin using permutation invariance. In this paper, we introduce Model Assembly Learning (MAL), a novel paradigm for model merging that iteratively integrates parameters from diverse models in an open-ended model zoo to enhance the base model’s capabilities. Unlike previous works that require identical architectures, MAL allows the merging of heterogeneous architectures and selective parameters across layers. Specifically, the base model can incorporate parameters from different layers of multiple pre-trained models. We systematically investigate the conditions and fundamental settings of heterogeneous parameter merging, addressing all possible mismatches in layer widths between the base and target models. Furthermore, we establish key laws and provide practical guidelines for effectively implementing MAL.

arxiv情報

著者 Yi-Kai Zhang,Jin Wang,Xu-Xiang Zhong,De-Chuan Zhan,Han-Jia Ye
発行日 2025-03-27 16:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク