Activation-Informed Merging of Large Language Models

要約

モデルマージは、微調整された複数の大規模言語モデル(LLM)のパラメータとエンベッディングを結合する手法であり、計算効率を維持しながら様々なタスクでモデルの性能を向上させる有望なアプローチを提供する。本稿では、性能と頑健性を向上させるために、LLMの活性化空間からの情報をマージプロセスに統合する手法である活性化情報マージ(AIM)を紹介する。AIMは、既存のどのマージ手法にも適用可能な、柔軟で補完的なソリューションとして設計されている。AIMは、継続的学習(CL)とモデル圧縮の原理を利用し、ベースモデルからの重要な重みを保持することを目的としている。タスクにとらわれないキャリブレーションセットを利用することで、AIMはマージ時に重要な重みを選択的に優先する。我々は、AIMが複数のベンチマークにおいてマージされたモデルの性能を著しく向上させることを実証的に示す。この結果は、活性化空間情報を考慮することで、LLMのモデルマージ戦略を大幅に改善し、ベンチマーク性能を最大40%向上させることができることを示唆している。

要約(オリジナル)

Model merging, a method that combines the parameters and embeddings of multiple fine-tuned large language models (LLMs), offers a promising approach to enhance model performance across various tasks while maintaining computational efficiency. This paper introduces Activation-Informed Merging (AIM), a technique that integrates the information from the activation space of LLMs into the merging process to improve performance and robustness. AIM is designed as a flexible, complementary solution that is applicable to any existing merging method. It aims to preserve critical weights from the base model, drawing on principles from continual learning~(CL) and model compression. Utilizing a task-agnostic calibration set, AIM selectively prioritizes essential weights during merging. We empirically demonstrate that AIM significantly enhances the performance of merged models across multiple benchmarks. Our findings suggest that considering the activation-space information can provide substantial advancements in the model merging strategies for LLMs with up to 40\% increase in benchmark performance.

arxiv情報

著者 Amin Heyrani Nobari,Kaveh Alimohammadi,Ali ArjomandBigdeli,Akash Srivastava,Faez Ahmed,Navid Azizan
発行日 2025-02-04 15:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク