MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

要約

モデルマージは、同じ事前訓練モデルから微調整された複数のシングルタスク・モデルをマルチタスク・モデルに結合する効果的なアプローチとして登場した。このプロセスでは通常、追加のトレーニングを行わずにモデルパラメータの加重平均を計算する。既存のモデルマージ手法は、タスクの平均精度を高めることに重点を置いている。しかし、異なるタスクの目的間の干渉や衝突は、モデル統合中にトレードオフを引き起こす可能性がある。実世界のアプリケーションでは、様々なトレードオフを持つ解の集合は、実務家が多様な選好に基づいて意思決定を行うのに役立ち、より有益である。本論文では、新しい低計算アルゴリズムである償却パレートフロント(MAP)を用いたモデルマージングを紹介する。MAPは、トレードオフを反映して複数のモデルをマージするためのスケーリング係数のパレート集合を特定する。MAPの核となるコンポーネントは、事前に選択されたスケーリング係数のセットから導かれる2次近似サロゲートモデルを用いて、様々なタスクの評価指標を近似することであり、これにより償却された推論が可能となる。視覚と自然言語処理タスクに関する実験結果は、MAPがパレートフロントを正確に識別できることを示している。MAPの計算量をさらに削減するために、我々は(1)ベイズ適応サンプリングアルゴリズムと、(2)多段階の入れ子マージスキームを提案する。

要約(オリジナル)

Model merging has emerged as an effective approach to combine multiple single-task models, fine-tuned from the same pre-trained model, into a multitask model. This process typically involves computing a weighted average of the model parameters without any additional training. Existing model-merging methods focus on enhancing average task accuracy. However, interference and conflicts between the objectives of different tasks can lead to trade-offs during model merging. In real-world applications, a set of solutions with various trade-offs can be more informative, helping practitioners make decisions based on diverse preferences. In this paper, we introduce a novel low-compute algorithm, Model Merging with Amortized Pareto Front (MAP). MAP identifies a Pareto set of scaling coefficients for merging multiple models to reflect the trade-offs. The core component of MAP is approximating the evaluation metrics of the various tasks using a quadratic approximation surrogate model derived from a pre-selected set of scaling coefficients, enabling amortized inference. Experimental results on vision and natural language processing tasks show that MAP can accurately identify the Pareto front. To further reduce the required computation of MAP, we propose (1) a Bayesian adaptive sampling algorithm and (2) a nested merging scheme with multiple stages.

arxiv情報

著者 Lu Li,Tianyu Zhang,Zhiqi Bu,Suyuchen Wang,Huan He,Jie Fu,Yonghui Wu,Jiang Bian,Yong Chen,Yoshua Bengio
発行日 2024-09-02 20:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク