要約
モデルのマージは、エキスパート モデルを組み合わせる場合には大きな可能性を示していますが、多くのタスクでトレーニングされた「ジェネラリスト」モデルをマージする場合には、マージの利点は不明瞭です。
私たちは、さまざまなタスク間のトレードオフを示す \textit{recycling} チェックポイントによって、大規模な ($\sim100$B) モデルのコンテキストでマージを検討します。
このようなチェックポイントはフロンティア モデルの開発プロセスで作成されることが多く、次善のチェックポイントの多くは通常破棄されます。
さまざまなトレーニング実行 (さまざまなステージ、目的、ハイパーパラメータ、データの混合など) から得られたモデル チェックポイントのプールを考慮すると、さまざまな言語機能 (たとえば、命令のフォローとコード生成) 間のトレードオフが自然に示されるため、マージが可能かどうかを調査します。
このような準最適モデルをパレート最適モデルにリサイクルします。
当社の最適化アルゴリズムは線形結合で各チェックポイントの重みを調整し、その結果、個別のモデルとマージベースのベースラインの両方を上回るパレート最適モデルが得られます。
さらに分析すると、良好なマージにはゼロ以外の重みを持つほぼすべてのチェックポイントが含まれる傾向があり、一見不良に見える初期チェックポイントであっても、良好な最終マージに寄与する可能性があることが示されています。
要約(オリジナル)
Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging “generalist” models trained on many tasks. We explore merging in the context of large ($\sim100$B) models, by \textit{recycling} checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.
arxiv情報
著者 | Muhammad Khalifa,Yi-Chern Tan,Arash Ahmadian,Tom Hosking,Honglak Lee,Lu Wang,Ahmet Üstün,Tom Sherborne,Matthias Gallé |
発行日 | 2024-12-05 13:12:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google