要約
タスク演算は、さまざまなタスクの微調整された重みを追加することにより、重み空間で事前トレーニングされたモデルを直接編集するための、コスト効率が高くスケーラブルなアプローチとして最近登場しました。
パフォーマンスは、重量のもつれの解消によって示される線形特性によってさらに向上しました。
しかし、従来の線形化方法 (NTK 線形化など) は、時間とトレーニング コストが 2 倍になるだけでなく、単一タスクのパフォーマンスにも不利な点があります。
私たちは、線形層のみを微調整する、シンプルでありながら効果的かつ効率的な方法を提案します。これにより、重量のもつれの解消と効率が同時に向上します。
具体的には、私たちの研究は、attentionモジュールの線形層を微調整するだけで、モデル全体が線形領域で発生し、重みのもつれの解消が大幅に改善されることを明らかにしています。
私たちの方法がタスク演算のもつれの解消をどのように改善するかをさらに理解するために、表現モデルとタスク固有モデルの役割を区別することによるタスク演算の包括的な研究を紹介します。
特に、表現モデルは重みのもつれ解除を改善する上で重要な役割を果たす一方、分類ヘッドなどのタスク固有のモデルは重みのもつれを解くパフォーマンスを低下させる可能性があることがわかりました。
全体として、私たちの研究はタスク演算の基本的なメカニズムに関する新たな洞察を明らかにし、事前トレーニングされたモデルを編集するためのより信頼性が高く効果的なアプローチを提供します。
要約(オリジナル)
Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space, by adding the fine-tuned weights of different tasks. The performance has been further improved by a linear property which is illustrated by weight disentanglement. Yet, conventional linearization methods (e.g., NTK linearization) not only double the time and training cost but also have a disadvantage on single-task performance. We propose a simple yet effective and efficient method that only fine-tunes linear layers, which improves weight disentanglement and efficiency simultaneously. Specifically, our study reveals that only fine-tuning the linear layers in the attention modules makes the whole model occur in a linear regime, significantly improving weight disentanglement. To further understand how our method improves the disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of representation model and task-specific model. In particular, we find that the representation model plays an important role in improving weight disentanglement whereas the task-specific models such as the classification heads can degenerate the weight disentanglement performance. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to editing pre-trained models.
arxiv情報
著者 | Ruochen Jin,Bojian Hou,Jiancong Xiao,Weijie Su,Li Shen |
発行日 | 2024-07-09 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google