要約
モデルのマージとタスク演算は、複数のシングルタスク チェックポイントを 1 つのマルチタスク モデルにマージするための有望なスケーラブルなアプローチとして登場しましたが、パフォーマンスが大幅に低下するため、その適用性は低下します。
以前の研究では、これらの低下はウェイト空間の干渉と、重要なタスク固有の機能の消去に関連付けられていました。
代わりに、この研究では、異なるタスクは主に重複しない重みのセットを使用するため、各タスクを解決するために必要な情報がマージ後も保持されることを示します。
私たちは、タスク ベクトルのコレクションが与えられたときにこれらのタスク サポートを識別する方法である TALL マスクを提案し、マスクをマルチタスク ベクトルに適用して個々のチェックポイントを効果的に圧縮することによって、単一タスクの精度の 99% 以上を取得できることを示します。
私たちは、構築されたマスク間の交差の統計を研究し、利己的で壊滅的な重み、つまり、1 つのタスクのみに重要で、すべてのタスクには無関係であるが、マルチタスクの融合には有害なパラメータの存在を明らかにします。
このため、このような重みを排除し、既存のモデル結合アプローチの一般的なパフォーマンスを向上させるアルゴリズムであるコンセンサス結合を提案します。
最大 20 のタスクを使用したビジョンと NLP ベンチマークの実験では、コンセンサス マージが既存のアプローチを一貫して改善していることがわかりました。
さらに、当社が提案した圧縮スキームは、元のパフォーマンスの 99.7% を維持しながら、ストレージを 57 GB から 8.2 GB に削減します。
要約(オリジナル)
Model merging and task arithmetic have emerged as promising scalable approaches to merge multiple single-task checkpoints to one multi-task model, but their applicability is reduced by significant performance loss. Previous works have linked these drops to interference in the weight space and erasure of important task-specific features. Instead, in this work we show that the information required to solve each task is still preserved after merging as different tasks mostly use non-overlapping sets of weights. We propose TALL-masks, a method to identify these task supports given a collection of task vectors and show that one can retrieve >99% of the single task accuracy by applying our masks to the multi-task vector, effectively compressing the individual checkpoints. We study the statistics of intersections among constructed masks and reveal the existence of selfish and catastrophic weights, i.e., parameters that are important exclusively to one task and irrelevant to all tasks but detrimental to multi-task fusion. For this reason, we propose Consensus Merging, an algorithm that eliminates such weights and improves the general performance of existing model merging approaches. Our experiments in vision and NLP benchmarks with up to 20 tasks, show that Consensus Merging consistently improves existing approaches. Furthermore, our proposed compression scheme reduces storage from 57Gb to 8.2Gb while retaining 99.7% of original performance.
arxiv情報
著者 | Ke Wang,Nikolaos Dimitriadis,Guillermo Ortiz-Jimenez,François Fleuret,Pascal Frossard |
発行日 | 2024-05-13 14:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google