SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery

要約

モデルマージベースのマルチタスク学習 (MTL) は、生のトレーニング データにアクセスすることなく、複数のエキスパート モデルをマージすることで MTL を実行するための有望なアプローチを提供します。
しかし、この論文では、結合モデルの表現分布を調査し、「表現バイアス」という重大な問題を明らかにします。
この偏りは、マージされたモデルとエキスパート モデルの表現間の大きな分布ギャップから生じ、マージされた MTL モデルのパフォーマンスが最適以下になることにつながります。
この課題に対処するために、私たちはまず、Surgery と呼ばれる代表的な手術ソリューションを提案します。
Surgery は軽量のタスク固有のモジュールで、マージされたモデルの最終レイヤー表現をエキスパート モデルのレイヤー表現と調整し、バイアスを効果的に軽減し、マージされたモデルのパフォーマンスを向上させます。
これらの改善にもかかわらず、従来の MTL 手法と比較してパフォーマンスの差は依然として残ります。
さらに分析を進めると、マージされたモデルの各層に表現バイアス現象が存在し、各層で導入されたバイアスが蓄積して複雑に相互作用する可能性があるため、最後の層でのみ表現を調整するだけでは全体的なバイアスを完全に低減するには不十分であることが明らかになりました。
これに取り組むために、私たちはより包括的なソリューションであるディープ リプレゼンテーション サージャリー (SurgeryV2 とも呼ばれます) を提案します。これは、すべてのレイヤーにわたる表現バイアスを軽減し、モデル マージ ベースの MTL と従来の MTL の間のパフォーマンス ギャップを埋めるものです。
最後に、Surgery モジュールと SurgeryV2 モジュールの両方を最適化するための教師なし最適化目標を設計します。
私たちの実験結果は、これらのモジュールを最先端 (SOTA) モデル結合スキームに組み込むと、パフォーマンスが大幅に向上することを示しています。
特に、当社の SurgeryV2 スキームは、個々のエキスパート モデルまたは従来の MTL モデルとほぼ同じレベルに達しています。
コードは \url{https://github.com/EnnengYang/SurgeryV2} で入手できます。

要約(オリジナル)

Model merging-based multitask learning (MTL) offers a promising approach for performing MTL by merging multiple expert models without requiring access to raw training data. However, in this paper, we examine the merged model’s representation distribution and uncover a critical issue of ‘representation bias’. This bias arises from a significant distribution gap between the representations of the merged and expert models, leading to the suboptimal performance of the merged MTL model. To address this challenge, we first propose a representation surgery solution called Surgery. Surgery is a lightweight, task-specific module that aligns the final layer representations of the merged model with those of the expert models, effectively alleviating bias and improving the merged model’s performance. Despite these improvements, a performance gap remains compared to the traditional MTL method. Further analysis reveals that representation bias phenomena exist at each layer of the merged model, and aligning representations only in the last layer is insufficient for fully reducing systemic bias because biases introduced at each layer can accumulate and interact in complex ways. To tackle this, we then propose a more comprehensive solution, deep representation surgery (also called SurgeryV2), which mitigates representation bias across all layers, and thus bridges the performance gap between model merging-based MTL and traditional MTL. Finally, we design an unsupervised optimization objective to optimize both the Surgery and SurgeryV2 modules. Our experimental results show that incorporating these modules into state-of-the-art (SOTA) model merging schemes leads to significant performance gains. Notably, our SurgeryV2 scheme reaches almost the same level as individual expert models or the traditional MTL model. The code is available at \url{https://github.com/EnnengYang/SurgeryV2}.

arxiv情報

著者 Enneng Yang,Li Shen,Zhenyi Wang,Guibing Guo,Xingwei Wang,Xiaocun Cao,Jie Zhang,Dacheng Tao
発行日 2024-10-18 11:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク