FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization

要約

モデルのマージは、マルチタスク学習(MTL)の有望なアプローチとして浮上しており、従来の微調整に代わるデータ効率の良い代替品を提供しています。
ただし、オープンソースのAIエコシステムの急速な発展と微調整された基礎モデルの可用性の向上により、既存のモデルのマージメソッドは2つの重要な制限に直面しています。
これらの課題に対処するために、モデルの合併を制約された最適化問題として策定し、新しいアプローチを導入します:フランクウルフマージング(FWマルジング)。
Frank-Wolfe Optimizationに触発されたこのアプローチは、プールで最も関連性の高いモデルを選択して、目的関数の線形近似を最小限に抑え、Frank-Wolfeアップデートと同様のローカルマージを実行します。
目的関数は、ターゲットマージモデルの目的の動作をキャプチャするように設計されており、微調整された候補モデルは制約セットを定義します。
さらに重要なことに、FWマルジングは、既存のマージメソッドの直交技術として機能し、それらとシームレスに統合して精度のパフォーマンスをさらに向上させることです。
私たちの実験では、多様なモデルソース全体のFWマルジングスケールがあり、16の無関係なモデルで安定したままであり、20のCVタスクで16の関連モデルで15.3%を改善し、データ情報の統合方法の線形オーバーヘッドとは異なり、一定のメモリオーバーヘッドを維持します。
最先端のアプローチと比較して、FWマルジングは、データフリーのマージ法を32.8%上回り、20 VITモデルをマージするとデータ情報に基づいたアダマーグを8.39%上回ります。
私たちのコードは、github.com/hmarkc/fw-mergingでオープンソーリングされています。

要約(オリジナル)

Model merging has emerged as a promising approach for multi-task learning (MTL), offering a data-efficient alternative to conventional fine-tuning. However, with the rapid development of the open-source AI ecosystem and the increasing availability of fine-tuned foundation models, existing model merging methods face two key limitations: (i) They are primarily designed for in-house fine-tuned models, making them less adaptable to diverse model sources with partially unknown model and task information, (ii) They struggle to scale effectively when merging numerous model checkpoints. To address these challenges, we formulate model merging as a constrained optimization problem and introduce a novel approach: Frank-Wolfe Merging (FW-Merging). Inspired by Frank-Wolfe optimization, our approach iteratively selects the most relevant model in the pool to minimize a linear approximation of the objective function and then executes a local merging similar to the Frank-Wolfe update. The objective function is designed to capture the desired behavior of the target-merged model, while the fine-tuned candidate models define the constraint set. More importantly, FW-Merging serves as an orthogonal technique for existing merging methods, seamlessly integrating with them to further enhance accuracy performance. Our experiments show that FW-Merging scales across diverse model sources, remaining stable with 16 irrelevant models and improving by 15.3% with 16 relevant models on 20 CV tasks, while maintaining constant memory overhead, unlike the linear overhead of data-informed merging methods. Compared with the state-of-the-art approaches, FW-Merging surpasses the data-free merging method by 32.8% and outperforms the data-informed Adamerging by 8.39% when merging 20 ViT models. Our code is open-sourced at github.com/hmarkc/FW-Merging.

arxiv情報

著者 Hao Mark Chen,Shell Xu Hu,Wayne Luk,Timothy Hospedales,Hongxiang Fan
発行日 2025-03-25 15:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク