Exploring Model Kinship for Merging Large Language Models

要約

モデルのマージは、大規模言語モデル (LLM) の機能と効率を強化するための重要なテクノロジの 1 つになっています。
ただし、2 つのモデルを結合した場合に期待されるパフォーマンスの向上と原則についての理解は依然として限られています。
この研究では、生物学的進化に似た、LLM 間の類似性または関連性の程度であるモデル親族関係を導入します。
包括的な実証分析により、モデルの親族関係とモデル結合後のパフォーマンスの向上の間には一定の関係があることがわかり、これが候補モデルの選択に役立ちます。
これにインスピレーションを得て、私たちは、ベンチマーク データセットでより優れたパフォーマンスを生み出すことができる、新しいモデル マージ戦略であるモデルの親族性を備えた Top-k Greedy Merging を提案します。
具体的には、モデルの親族関係を基準として使用すると、モデルのマージを継続的に実行してモデルの進化における劣化(局所最適化)を軽減するのに役立ち、一方、モデルの親族関係はこれらの罠を回避するためのガイドとして機能することがわかります。
コードは https://github.com/zjunlp/ModelKinship で入手できます。

要約(オリジナル)

Model merging has become one of the key technologies for enhancing the capabilities and efficiency of Large Language Models (LLMs). However, our understanding of the expected performance gains and principles when merging any two models remains limited. In this work, we introduce model kinship, the degree of similarity or relatedness between LLMs, analogous to biological evolution. With comprehensive empirical analysis, we find that there is a certain relationship between model kinship and the performance gains after model merging, which can help guide our selection of candidate models. Inspired by this, we propose a new model merging strategy: Top-k Greedy Merging with Model Kinship, which can yield better performance on benchmark datasets. Specifically, we discover that using model kinship as a criterion can assist us in continuously performing model merging, alleviating the degradation (local optima) in model evolution, whereas model kinship can serve as a guide to escape these traps. Code is available at https://github.com/zjunlp/ModelKinship.

arxiv情報

著者 Yedi Hu,Yunzhi Yao,Ningyu Zhang,Shumin Deng,Huajun Chen
発行日 2024-10-16 14:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA パーマリンク