Multi-Task Model Merging via Adaptive Weight Disentanglement

要約

モデルのマージは、さまざまなタスクからのタスク固有の重みを統合されたマルチタスク モデルに組み込む経済的でスケーラブルなアプローチとして最近注目を集めています。
たとえば、タスク演算 (TA) では、さまざまなタスクの微調整された重みを追加すると、それらのタスクに対するモデルのパフォーマンスが向上しますが、減算するとタスクの忘却が生じます。
TA は非常に効果的ですが、タスク間の干渉により、マージされたモデルのパフォーマンスが依然として妨げられます。
タスク間の競合を処理する既存の方法は、一般に経験的な選択に依存しているため、最適なパフォーマンスが得られません。
この論文では、適応重み解きほぐし法を紹介します。
まず、タスク間の干渉を最小限に抑えるために、モデルの結合に使用されるタスク ベクトルが直交している必要があることを理論的に証明します。
この洞察に基づいて、元のタスク ベクトルから減算されたときに結果として得られるベクトルの直交性が向上するように冗長ベクトルを初期化します。
さらに、タスク固有のモデルのパフォーマンスを維持するために、冗長ベクトルにノルム制約を課します。
実験結果は、私たちが提案した手法の有効性を示しています。冗長ベクトルの抽出に成功し、それらの減算後、タスクベクトルは堅牢なパフォーマンスを維持するだけでなく、優れた融合結果も達成します。
コードは \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git} で入手できます。

要約(オリジナル)

Model merging has recently gained attention as an economical and scalable approach to incorporate task-specific weights from various tasks into a unified multi-task model. For example, in Task Arithmetic (TA), adding the fine-tuned weights of different tasks can enhance the model’s performance on those tasks, while subtracting them leads to task forgetting. Although TA is highly effective, interference among task still hampers the performance of the merged model. Existing methods for handling conflicts between task generally rely on empirical selection, resulting in suboptimal performance. In this paper, we introduce an Adaptive Weight Disentanglement method. We begin by theoretically proving that task vectors employed in model merging should be orthogonal to minimize interference among tasks. Guided by this insight, we initialize redundant vectors such that, when subtracted from the original task vectors, the resulting vectors exhibit increased orthogonality. Additionally, we impose an norm constraint on the redundant vectors to preserve the performance of the task-specific models. Experimental results demonstrate the effectiveness of our proposed technique: it successfully extracts redundant vectors, and after their subtraction, the task vectors not only retain robust performance but also achieve superior fusion outcomes. Our code is available at \href{https://github.com/FarisXiong/AWD.git}{https://github.com/FarisXiong/AWD.git}.

arxiv情報

著者 Feng Xiong,Runxi Cheng,Wang Chen,Zhanqiu Zhang,Yiwen Guo,Chun Yuan,Ruifeng Xu
発行日 2025-01-09 03:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク