Merging by Matching Models in Task Subspaces

要約

モデルのマージは、個々のタスク固有のモデルを単一のマルチタスク モデルに安価に結合することを目的としています。
この研究では、過去のマージ方法を、マージ前にモデルが照合される「タスク サブスペース」のさまざまな概念を利用していると見なします。
特定のモデルのタスク部分空間をその損失ランドスケープに接続し、モデルを結合するこのアプローチが線形方程式系を解くものとしてどのようにみなされるかを形式化します。
これまでの研究は一般に、閉じた形式の解を持つ線形システムに限定されていましたが、解を見つけるために共役勾配法の使用を検討します。
共役勾配法を使用すると、閉じた形式の解法を上回るパフォーマンスが得られ、他の方法では解決が難しい線形システムを介したマージが可能になり、「タスク部分空間」のさまざまな初期化と推定から柔軟に選択できることを示します。
私たちは最終的に、「タスク サブスペースでのモデルのマッチング」(MaTS) と呼ばれるマージ フレームワークが、マルチタスク モデルと中間タスク モデルのマージにおいて最先端の結果を達成することを実証しました。
私たちの作業で使用されたすべてのコードとチェックポイントは https://github.com/r-three/mats でリリースされます。

要約(オリジナル)

Model merging aims to cheaply combine individual task-specific models into a single multitask model. In this work, we view past merging methods as leveraging different notions of a ”task subspace” in which models are matched before being merged. We connect the task subspace of a given model to its loss landscape and formalize how this approach to model merging can be seen as solving a linear system of equations. While past work has generally been limited to linear systems that have a closed-form solution, we consider using the conjugate gradient method to find a solution. We show that using the conjugate gradient method can outperform closed-form solutions, enables merging via linear systems that are otherwise intractable to solve, and flexibly allows choosing from a wide variety of initializations and estimates for the ”task subspace”. We ultimately demonstrate that our merging framework called ”Matching Models in their Task Subspace” (MaTS) achieves state-of-the-art results in multitask and intermediate-task model merging. We release all of the code and checkpoints used in our work at https://github.com/r-three/mats.

arxiv情報

著者 Derek Tam,Mohit Bansal,Colin Raffel
発行日 2023-12-07 14:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク