Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild

要約

大規模言語モデル (LLM) はタスクや特殊なドメイン全体で優れているため、既存のモデルに基づく LLM のスケーリングが大きな注目を集めていますが、異種モデルを組み合わせるとパフォーマンスが低下するという課題に直面しています。
事前トレーニングされた LLM を集約するために、モデルのマージ、専門家の混合、スタッキングなどのさまざまな手法が提案されています。
これらの利点にもかかわらず、それらを包括的に比較し、多様なモデル動物園に相乗的に適用することはまだ十分に取り組まれていません。
この研究ギャップを考慮して、この文書では総合的な LLM スケーリング ガイドラインである Model-GLUE を紹介します。
まず、私たちの作業は、既存の LLM スケーリング技術、特に選択的マージと混合の変形のベンチマークから始まります。
ベンチマーク結果からの洞察を利用して、さまざまなアーキテクチャと初期化を特徴付ける異種モデル動物園の選択と集約のための最適な戦略を策定します。私たちの方法論には、マージ可能なモデルのクラスタリングと最適なマージ戦略の選択、およびクラスタリングによるクラスタの統合が含まれます。
モデルミックス。
最後に、多様な Llama-2 ベースの動物園モデルでの実験で証明されたように、Model-GLUE は追加のトレーニングなしで平均 5.61% のパフォーマンス向上を達成しました。
コードは https://github.com/Model-GLUE/Model-GLUE から入手できます。

要約(オリジナル)

As Large Language Models (LLMs) excel across tasks and specialized domains, scaling LLMs based on existing models has garnered significant attention, which faces the challenge of decreasing performance when combining disparate models. Various techniques have been proposed for the aggregation of pre-trained LLMs, including model merging, Mixture-of-Experts, and stacking. Despite their merits, a comprehensive comparison and synergistic application of them to a diverse model zoo is yet to be adequately addressed. In light of this research gap, this paper introduces Model-GLUE, a holistic LLM scaling guideline. First, our work starts with a benchmarking of existing LLM scaling techniques, especially selective merging, and variants of mixture. Utilizing the insights from the benchmark results, we formulate an optimal strategy for the selection and aggregation of a heterogeneous model zoo characterizing different architectures and initialization.Our methodology involves the clustering of mergeable models and optimal merging strategy selection, and the integration of clusters through a model mixture. Finally, evidenced by our experiments on a diverse Llama-2-based model zoo, Model-GLUE shows an average performance enhancement of 5.61%, achieved without additional training. Codes are available at: https://github.com/Model-GLUE/Model-GLUE.

arxiv情報

著者 Xinyu Zhao,Guoheng Sun,Ruisi Cai,Yukun Zhou,Pingzhi Li,Peihao Wang,Bowen Tan,Yexiao He,Li Chen,Yi Liang,Beidi Chen,Binhang Yuan,Hongyi Wang,Ang Li,Zhangyang Wang,Tianlong Chen
発行日 2024-12-05 15:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク