要約
モデルとデータサイズのスケーリングにより、AIランドスケープが再構築され、下流タスクを解くための標準的なパラダイムとしての微調整前のモデルが確立されました。
ただし、支配的な微調整方法は通常、体重の適応に依存しており、多くの場合、解釈可能性が欠けており、ヒューリスティックに選択されたハイパーパラメーターに依存します。
この論文では、別の視点を取り、重みから活性化機能に焦点を移し、スプライン演算子のレンズを通してそれらを表示します。
単一のハイパーパラメーターを活性化関数に注入することにより、モデルの決定境界を変調する解釈可能かつ原則的なステアリング方法である曲率チューニング(CT)を提案します。
CTは、モデルの決定境界の曲率を証明し、より根本的に、モデルを滑らかな機能の空間に投影することを示しています。
このハイパーパラメーターをトレーニング可能にすることで、斬新で非常にパラメーター効率の高い微調整方法が生まれます。
経験的に、CTは一般化と堅牢性の両方を改善します。
たとえば、ResNet-50/152の下流の精度を、線形プロービングで7.14%/8.46%、12データセット全体でLORAで4.64%/1.70%で高め、1032.64%/1494.46%までに$ \ eLL_ \ inftty $ベンチマークの堅牢な精度を向上させます。
私たちのコードは、https://github.com/leon-leyang/curvature-tuningで入手できます。
要約(オリジナル)
The scaling of model and data sizes has reshaped the AI landscape, establishing finetuning pretrained models as the standard paradigm for solving downstream tasks. However, dominant finetuning methods typically rely on weight adaptation, often lack interpretability, and depend on heuristically chosen hyperparameters. In this paper, we take a different perspective and shift the focus from weights to activation functions, viewing them through the lens of spline operators. We propose Curvature Tuning (CT), an interpretable and principled steering method that modulates a model’s decision boundary by injecting a single hyperparameter into its activation functions. We show that CT provably adjusts model decision boundary curvature and, more fundamentally, projects a model onto a space of smooth functions-thereby complementing current finetuning methods, whose effect lies primarily in feature adaptation. Making this hyperparameter trainable gives rise to a novel and highly parameter-efficient finetuning method. Empirically, CT improves both generalization and robustness. For example, it boosts downstream accuracy of ResNet-50/152 by 7.14%/8.46% over linear probing and 4.64%/1.70% over LoRA across 12 datasets, and improves robust accuracy on the $\ell_\infty$ benchmark from RobustBench by 1032.64%/1494.46%. Our code is available at https://github.com/Leon-Leyang/curvature-tuning.
arxiv情報
著者 | Leyang Hu,Matteo Gamba,Randall Balestriero |
発行日 | 2025-06-11 17:09:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google