要約
大規模な事前トレーニング済みモデルを微調整することは、機械学習アプリケーションでは一般的な手法ですが、その数学的分析はほとんど解明されていません。
この論文では、記憶能力という観点から微調整について研究します。
私たちの新しい尺度である Fine-Tuning Capacity (FTC) は、ニューラル ネットワークが微調整できるサンプルの最大数、または同等に $N$ を任意に変更するために必要なニューロンの最小数 ($m$) として定義されます。
微調整プロセスで考慮される $K$ サンプル間のラベル。
基本的に、FTC は記憶能力の概念を微調整シナリオまで拡張します。
我々は、微調整されたネットワークが、凍結された事前学習済みネットワーク $f$ と微調整用に設計されたニューラル ネットワーク $g$ ($m$ ニューロンを含む) の合計として定義される、加算的微調整シナリオについて FTC を分析します。
。
$g$ が 2 層または 3 層の ReLU ネットワークである場合、FTC に厳しい上限と下限が得られます。
$N$ サンプルは、2 層ネットワークの場合は $m=\Theta(N)$ ニューロンを使用し、3 層ネットワークの場合は $m=\Theta(\sqrt{N})$ ニューロンを使用して微調整できることを示します。
、$K$がどれほど大きくても。
私たちの結果は、特別な場合として $N = K$ の場合の既知の記憶能力の結果を復元します。
要約(オリジナル)
Fine-tuning large pre-trained models is a common practice in machine learning applications, yet its mathematical analysis remains largely unexplored. In this paper, we study fine-tuning through the lens of memorization capacity. Our new measure, the Fine-Tuning Capacity (FTC), is defined as the maximum number of samples a neural network can fine-tune, or equivalently, as the minimum number of neurons ($m$) needed to arbitrarily change $N$ labels among $K$ samples considered in the fine-tuning process. In essence, FTC extends the memorization capacity concept to the fine-tuning scenario. We analyze FTC for the additive fine-tuning scenario where the fine-tuned network is defined as the summation of the frozen pre-trained network $f$ and a neural network $g$ (with $m$ neurons) designed for fine-tuning. When $g$ is a ReLU network with either 2 or 3 layers, we obtain tight upper and lower bounds on FTC; we show that $N$ samples can be fine-tuned with $m=\Theta(N)$ neurons for 2-layer networks, and with $m=\Theta(\sqrt{N})$ neurons for 3-layer networks, no matter how large $K$ is. Our results recover the known memorization capacity results when $N = K$ as a special case.
arxiv情報
著者 | Jy-yong Sohn,Dohyun Kwon,Seoyeon An,Kangwook Lee |
発行日 | 2024-08-19 14:15:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google