要約
ChatGpt、Claude、Llamaなどの大規模な言語モデルは、巨大でモノリシックであり、数千のタスクを同時にサポートするための超大国を所有しています。
ただし、ハイスループットアプリケーションは、遅延とコストが低いため、タスク固有のモデルが小さいことが多いことがよくあります。
タスク固有のモデルを使用することの1つの課題は、既存のタスク用にモデルが既に展開されている後に、新しいタスクを解決するための漸進的な必要性です。
簡単なソリューションでは、既存のタスクと新しいタスクの両方に対してモデルを再度微調整する必要があります。これは、計算的に高価で時間がかかります。
この問題に対処するために、SuperMergeと呼ばれるモデルマージベースのアプローチを提案します。
SuperMergeは、既存のタスクと新しいタスクでトレーニングされたいくつかの微調整されたモデルを体系的にマージするグラデーションベースの方法です。
SuperMergeは軽量で高速になるように設計されており、マージされたモデルは、すべてのタスクで完全に微調整されたモデルと同様のパフォーマンスを実現します。
さらに、マージモデルのパフォーマンスを犠牲にすることなく、ピーク空間要件を減らすために、階層モデルの合併戦略を提案しました。
スーパーマージは、一般的な自然言語処理とコンピュータービジョンタスクに関する既存のモデルの融合方法を上回ることを実験的に実証します。
要約(オリジナル)
Large language models, such as ChatGPT, Claude, or LLaMA, are gigantic, monolithic, and possess the superpower to simultaneously support thousands of tasks. However, high-throughput applications often prefer smaller task-specific models because of their lower latency and cost. One challenge of using task-specific models is the incremental need for solving newer tasks after the model is already deployed for existing tasks. A straightforward solution requires fine-tuning the model again for both existing and new tasks, which is computationally expensive and time-consuming. To address this issue, we propose a model merging based approach called SUPERMERGE. SUPERMERGE is a gradient-based method to systematically merge several fine-tuned models trained on existing and new tasks. SUPERMERGE is designed to be lightweight and fast, and the merged model achieves similar performance to fully fine-tuned models on all tasks. Furthermore, we proposed a hierarchical model merging strategy to reduce the peak space requirement without sacrificing the performance of the merged model. We experimentally demonstrate that SUPERMERGE outperforms existing model merging methods on common natural language processing and computer vision tasks.
arxiv情報
著者 | Haoyu Yang,Zheng Zhang,Saket Sathe |
発行日 | 2025-02-14 17:40:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google