要約
このペーパーでは、強力なディストリビューション内 (ID) およびディストリビューション外 (OOD) のパフォーマンスを提供する、大規模な事前トレーニング済みモデルの効率的な微調整方法を紹介します。
平均化に多数の微調整されたモデルを必要とする従来の手法から脱却し、当社のアプローチでは、使用するモデルを大幅に減らして最終的な重みを達成しながら、優れた精度を実現します。
微調整されたウェイトの重量空間に関する重要な洞察に基づいて、パフォーマンスと重量空間の中心への近さの間の強いつながりを明らかにしました。
これに基づいて、トレーニング中またはトレーニング後に適用できる、2 つの微調整モデルのみを使用して中心近くの重みを近似する方法を紹介します。
当社の革新的なレイヤーごとの重み平均化技術は、モデル スープなどの最先端のモデル手法を上回り、2 つの微調整されたモデルのみを利用します。
この戦略は、より最適化された平均モデルを描画するために最小限のモデルを選択することに依存していることを強調して、モデル ストックという適切な造語を与えることができます。
事前トレーニング済みの CLIP アーキテクチャに基づいて微調整されたモデルを使用してモデル ストックの有効性を実証し、追加の計算要求をほとんど発生させずに、標準ベンチマークで ID タスクと OOD タスクの両方で顕著なパフォーマンスを達成します。
私たちのコードと事前トレーニングされたモデルは https://github.com/naver-ai/model-stock で入手できます。
要約(オリジナル)
This paper introduces an efficient fine-tuning method for large pre-trained models, offering strong in-distribution (ID) and out-of-distribution (OOD) performance. Breaking away from traditional practices that need a multitude of fine-tuned models for averaging, our approach employs significantly fewer models to achieve final weights yet yield superior accuracy. Drawing from key insights in the weight space of fine-tuned weights, we uncover a strong link between the performance and proximity to the center of weight space. Based on this, we introduce a method that approximates a center-close weight using only two fine-tuned models, applicable during or after training. Our innovative layer-wise weight averaging technique surpasses state-of-the-art model methods such as Model Soup, utilizing only two fine-tuned models. This strategy can be aptly coined Model Stock, highlighting its reliance on selecting a minimal number of models to draw a more optimized-averaged model. We demonstrate the efficacy of Model Stock with fine-tuned models based upon pre-trained CLIP architectures, achieving remarkable performance on both ID and OOD tasks on the standard benchmarks, all while barely bringing extra computational demands. Our code and pre-trained models are available at https://github.com/naver-ai/model-stock.
arxiv情報
著者 | Dong-Hwan Jang,Sangdoo Yun,Dongyoon Han |
発行日 | 2024-03-28 15:57:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google