要約
タスク演算は、追加のトレーニングを行わずにモデルを結合するためのシンプルかつ効果的な方法として登場しました。
ただし、ネットワーク全体をフラットなパラメーター ベクトルとして扱うため、重要な構造情報が見落とされ、タスクの干渉を受けやすくなります。
この論文では、タスク層の行列とその特異値分解に焦点を当てて、層レベルでのタスク ベクトルを研究します。
特に、タスク特異ベクトル (TSV) と呼ばれる、結果として生じる特異ベクトルに焦点を当てます。
層タスク行列は低ランクであることが多いことを認識し、99% の精度を維持しながら元のサイズの 10% に圧縮する単純な手順である TSV-Compress (TSV-C) を提案します。
さらに、この低ランク空間を利用して、さまざまなタスクからの特異ベクトルの相互作用に基づいてタスク干渉の新しい尺度を定義します。
これらの発見に基づいて、圧縮と干渉低減を組み合わせ、既存の方法を大幅に上回る新しいモデル マージ アプローチである TSV-Merge (TSV-M) を紹介します。
要約(オリジナル)
Task Arithmetic has emerged as a simple yet effective method to merge models without additional training. However, by treating entire networks as flat parameter vectors, it overlooks key structural information and is susceptible to task interference. In this paper, we study task vectors at the layer level, focusing on task layer matrices and their singular value decomposition. In particular, we concentrate on the resulting singular vectors, which we refer to as Task Singular Vectors (TSV). Recognizing that layer task matrices are often low-rank, we propose TSV-Compress (TSV-C), a simple procedure that compresses them to 10% of their original size while retaining 99% of accuracy. We further leverage this low-rank space to define a new measure of task interference based on the interaction of singular vectors from different tasks. Building on these findings, we introduce TSV-Merge (TSV-M), a novel model merging approach that combines compression with interference reduction, significantly outperforming existing methods.
arxiv情報
著者 | Antonio Andrea Gargiulo,Donato Crisostomi,Maria Sofia Bucarelli,Simone Scardapane,Fabrizio Silvestri,Emanuele Rodolà |
発行日 | 2025-01-02 17:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google