FuseChat: Knowledge Fusion of Chat Models

要約

大規模言語モデル (LLM) を最初からトレーニングすると、確かに独特の機能と強みを備えたモデルが得られますが、それには多大なコストがかかり、コンピテンシーの冗長性が生じる可能性があります。
知識の融合は、軽量の継続的なトレーニングを通じて、さまざまなアーキテクチャと機能の既存の LLM をより強力な LLM に統合し、それによってコストのかかる LLM 開発の必要性を削減することを目的としています。
この研究では、2 つの主要な段階を通じてチャット LLM の知識を融合するための新しいフレームワークを提案し、その結果 FuseChat が誕生します。
まず、さまざまな構造と規模のソース チャット LLM に対してペアワイズ知識融合を実行し、軽量の微調整によって同一の構造とサイズを持つ複数のターゲット LLM を作成します。
このプロセスでは、LLM を異なる構造と融合するための基礎として、統計ベースのトークン調整アプローチが導入されます。
次に、これらのターゲット LLM をパラメータ空間内でマージし、微調整前後のパラメータ更新の大きさに基づいてマージ係数を決定する新しい方法を提案します。
OpenChat-3.5-7B、Starling-LM-7B-alpha、NH2-SOLAR-10.7B、InternLM2-Chat-20B、Mixtral-8x7B-Instruct、
および Qwen-1.5-Chat-72B。
AlpacaEval 2.0 と MT-Bench という 2 つの命令追従ベンチマークの実験結果は、さまざまなサイズのベースラインに対する FuseChat-7B の優位性を示しています。
私たちのモデルは、より大きな Mixtral-8x7B-Instruct にさえ匹敵し、MT-Bench 上の GPT-3.5-Turbo-1106 に近づきます。
私たちのコード、モデルの重み、データは \url{https://github.com/fanqiwan/FuseAI} で公開されています。

要約(オリジナル)

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseAI}.

arxiv情報

著者 Fanqi Wan,Longguang Zhong,Ziyi Yang,Ruijun Chen,Xiaojun Quan
発行日 2024-08-15 07:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク