What Matters for Model Merging at Scale?

要約

モデルの統合は、複数のエキスパートモデルをより高性能な単一モデルに統合することを目的としており、ストレージや配信コストの削減、汎化の改善、分散型モデル開発のサポートなどの利点を提供する。期待されているにもかかわらず、これまでの研究では、主に少数の小さなモデルの結合に焦点が当てられてきた。このため、モデルサイズのスケーリングの効果や、ベースモデルの品質やエキスパートモデルの数など、他の重要な要素とどのように相互作用し、マージされたモデルの性能に影響を与えるかについて、多くの未解決の疑問が残されている。この研究では、これらの様々な要因の影響を調べながら、スケールでのモデル統合の有用性を系統的に評価する。我々は、1Bから64Bのパラメータを持つモデルサイズと、最大8つの異なるエキスパートモデルのマージにおいて、4つの一般的なマージ手法 — Averaging、Task~Arithmetic、Dare、TIES — を用いて、完全にファインチューニングされたモデルのマージを実験する。マージされたモデルを、保持されたタスク、すなわちエキスパートの訓練タスクと、未見の保持されたタスクへのゼロショット汎化の両方で評価する。我々の実験は、スケールでのモデルのマージと、異なる要因間の相互作用について、いくつかの新しい洞察を提供する。第一に、エキスパートが強力なベースモデル、すなわちゼロショットの性能が良いモデルから作成される場合、マージがより効果的であることが分かる。第二に、より大きなモデルはマージを容易にする。第三に、マージは一貫して汎化能力を向上させる。特に、8つの大きなエキスパートモデルをマージした場合、マージされたモデルは、マルチタスクで訓練されたモデルと比較して、より良く汎化されることが多い。第四に、より大きなモデルを扱う場合、より多くのエキスパートモデルをより良くマージすることができる。第五に、異なるマージ方法は、より大きなスケールにおいて非常に類似した振る舞いをする。全体として、我々の発見は、モデル結合のいくつかの興味深い性質に光を当てると同時に、いくつかの限界も浮き彫りにした。本研究が、今後の研究において大規模マージの参考となることを願っている。

要約(オリジナル)

Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors — like the base model quality and number of expert models — , to affect the merged model’s performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods — Averaging, Task~Arithmetic, Dare, and TIES — across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert’s training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

arxiv情報

著者 Prateek Yadav,Tu Vu,Jonathan Lai,Alexandra Chronopoulou,Manaal Faruqui,Mohit Bansal,Tsendsuren Munkhdalai
発行日 2024-10-04 17:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク