Unconstrained Model Merging for Enhanced LLM Reasoning

要約

ドメイン固有の大規模言語モデル (LLM) の構築における最近の進歩は、特に複雑な関係に対する論理的推論や複数ステップの問題解決などの推論能力を必要とするタスクにおいて、目覚ましい成功を収めています。
ただし、独自のデータと膨大な計算リソースが必要なため、強力なオールインワン LLM を作成することは依然として困難です。
リソースに優しい代替手段として、複数のエキスパート モデルを 1 つの LLM に統合する可能性を検討します。
モデルのマージに関する既存の研究は、主にドメインの専門家ではなくジェネラリストの LLM、または同じアーキテクチャとサイズの LLM に焦点を当てています。
この研究では、推論タスクに焦点を当てて、同種モデル アーキテクチャと異種モデル アーキテクチャの両方に対応する、制約のないモデル マージ フレームワークを提案します。
きめ細かいレイヤーごとの重みマージ戦略は、同種モデルのマージ用に設計されていますが、異種モデルのマージは、命令応答微調整データから得られる確率的分布知識に基づいて構築されます。
7 つのベンチマークと推論に最適化された 9 つの LLM にわたって、単純な相加効果を超える組み合わせ推論がマージから出現するという重要な発見を明らかにします。
私たちは、制約のないモデルのマージが分散型 LLM の基盤として機能し、既存の集中型 LLM フレームワークからの顕著な進歩を示す可能性があると提案します。
この進化により、より広範な参加が強化され、人工知能分野のさらなる進歩が刺激され、集中型モデルによってもたらされる制約に効果的に対処できる可能性があります。

要約(オリジナル)

Recent advancements in building domain-specific large language models (LLMs) have shown remarkable success, especially in tasks requiring reasoning abilities like logical inference over complex relationships and multi-step problem solving. However, creating a powerful all-in-one LLM remains challenging due to the need for proprietary data and vast computational resources. As a resource-friendly alternative, we explore the potential of merging multiple expert models into a single LLM. Existing studies on model merging mainly focus on generalist LLMs instead of domain experts, or the LLMs under the same architecture and size. In this work, we propose an unconstrained model merging framework that accommodates both homogeneous and heterogeneous model architectures with a focus on reasoning tasks. A fine-grained layer-wise weight merging strategy is designed for homogeneous models merging, while heterogeneous model merging is built upon the probabilistic distribution knowledge derived from instruction-response fine-tuning data. Across 7 benchmarks and 9 reasoning-optimized LLMs, we reveal key findings that combinatorial reasoning emerges from merging which surpasses simple additive effects. We propose that unconstrained model merging could serve as a foundation for decentralized LLMs, marking a notable progression from the existing centralized LLM framework. This evolution could enhance wider participation and stimulate additional advancement in the field of artificial intelligence, effectively addressing the constraints posed by centralized models.

arxiv情報

著者 Yiming Zhang,Baoyi He,Shengyu Zhang,Yuhao Fu,Qi Zhou,Zhijie Sang,Zijin Hong,Kejing Yang,Wenjun Wang,Jianbo Yuan,Guangning Han,Linyi Li,Chunlin Ji,Fei Wu,Hongxia Yang
発行日 2024-10-17 16:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク