Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning

要約

モデルのマージは、シングルタスクチェックポイントをマルチタスクモデルに融合するための柔軟で計算上の扱いやすいアプローチです。
以前の作業は、サンプルとタスクの間に1対1のマッピングがある制約付きマルチタスク設定にのみ焦点を当てており、同じサンプル、たとえばシーンの理解で複数のタスクが動作するパラダイムを見落とす可能性があります。
このホワイトペーパーでは、シングルインプットマルチプレーット(SIMO)を使用したマルチタスク設定に焦点を当て、タスク固有のデコーダの存在と多様な損失目標の存在により、文献で研究されているシングルパットシングル出力モデルのマージ設定と定性的に異なることを示しています。
マージされたエンコーダーとタスク固有のデコーダーの間の表現の不整合により、既存のモデルのマージ方法が大幅にパフォーマンス低下につながることを特定します。
マージした後、フィーチャ表現を再調整するために、SIMO設定の2つのシンプルで効率的な修正を提案します。
ジョイントの微調整と比較して、私たちのアプローチは計算的に効果的で柔軟であり、オフラインでタスク関係を特定するために光を当てます。
NYUV2、Cityscapes、およびTaskonomy Datasetのサブセットに関する実験は、次のことを示しています。(1)マルチタスク機能を有効にするのに十分です。
ただし、マージされたエンコーダーによって生成される表現は、タスク固有のヘッドと再調整する必要があります。
(2)提案されたアーキテクチャは、パフォーマンスの従来のマルチタスク学習に匹敵しますが、タスク固有のモデルの存在を活用することにより、サンプルとトレーニングの手順が少なくなります。

要約(オリジナル)

Model merging is a flexible and computationally tractable approach to merge single-task checkpoints into a multi-task model. Prior work has solely focused on constrained multi-task settings where there is a one-to-one mapping between a sample and a task, overlooking the paradigm where multiple tasks may operate on the same sample, e.g., scene understanding. In this paper, we focus on the multi-task setting with single-input-multiple-outputs (SIMO) and show that it qualitatively differs from the single-input-single-output model merging settings studied in the literature due to the existence of task-specific decoders and diverse loss objectives. We identify that existing model merging methods lead to significant performance degradation, primarily due to representation misalignment between the merged encoder and task-specific decoders. We propose two simple and efficient fixes for the SIMO setting to re-align the feature representation after merging. Compared to joint fine-tuning, our approach is computationally effective and flexible, and sheds light into identifying task relationships in an offline manner. Experiments on NYUv2, Cityscapes, and a subset of the Taskonomy dataset demonstrate: (1) task arithmetic suffices to enable multi-task capabilities; however, the representations generated by the merged encoder has to be re-aligned with the task-specific heads; (2) the proposed architecture rivals traditional multi-task learning in performance but requires fewer samples and training steps by leveraging the existence of task-specific models.

arxiv情報

著者 Juan Garcia Giraldo,Nikolaos Dimitriadis,Ke Wang,Pascal Frossard
発行日 2025-04-15 15:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク