要約
深い学習の急速な成長に伴い、さまざまなタスクのオープンソースモデルの可用性が高まっています。
ただし、単一の微調整されたモデルは、ユーザーの多様なニーズを満たすことができないことがよくあります。
したがって、モデルのマージは、既存のモデルの機能を統一されたモデルに統合する効率的な方法として浮上しています。
それにもかかわらず、既存のモデルの統合方法は、主にタスクの干渉によるパフォーマンスと展開コストの間の挑戦的なトレードオフに直面しています。
初めて、タスク干渉はモデルパラメーターの周波数領域で明らかであることが明らかになりましたが、現在の取り組みは、周波数ドメイン干渉にほとんど対処するのにほとんど効果がない空間ドメインソリューションに焦点を当てていることを明らかにします。
周波数ドメイン干渉の影響を緩和するために、FR-Mergingを提案します。FR-Mergingは、最小限の計算オーバーヘッドでバックボーンに有害な周波数ドメイン干渉を効果的にろ過する革新的な方法です。
コストフリーの方法ではパフォーマンスの損失は避けられないため、合併中の情報損失を動的に補償する軽量のタスク固有のエキスパートモジュールを提案します。
この提案されたフレームワーク、フリーマザー(専門家とのFRマザー)は、トレーニングコスト、推論の遅延、ストレージ要件、およびパフォーマンスのバランスの取れたトレードオフを攻撃します。
CV、NLP、およびマルチモーダルドメインの複数のタスクでFRマースとフリーマザーの両方の有効性を実証し、特定のニーズに柔軟に適応できることを示しています。
要約(オリジナル)
With the rapid growth of deep learning, there is an increasing availability of open-source models for various tasks. However, single fine-tuned models often fall short of meeting the diverse needs of users. Model merging has thus emerged as an efficient method to integrate the capabilities of existing models into a unified model. Nevertheless, existing model merging methods face challenging trade-offs between performance and deployment costs, primarily due to task interference. For the first time, we reveal that task interference is evident in the frequency domain of model parameters, yet current efforts only focus on spatial domain solutions, which are largely ineffective in addressing frequency domain interference. To mitigate the impact of frequency domain interference, we propose FR-Merging, an innovative method that effectively filters harmful frequency domain interference on the backbone with minimal computational overhead. Since performance loss is inevitable with cost-free methods, we propose a lightweight task-specific expert module that dynamically compensates for information loss during merging. This proposed framework, FREE-Merging (FR-Merging with experts), strikes a balanced trade-off between training cost, inference latency, storage requirements, and performance. We demonstrate the effectiveness of both FR-Merging and FREE-Merging on multiple tasks across CV, NLP, and Multi-Modal domains and show that they can be flexibly adapted to specific needs.
arxiv情報
著者 | Shenghe Zheng,Hongzhi Wang |
発行日 | 2025-03-25 16:19:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google