Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

要約

モデルサイズとデータサイズの拡大縮小は、AIの展望を再形成し、下流のタスクを解決するための標準的なパラダイムとして、事前に訓練されたモデルを微調整することを確立した。しかし、一般的なファインチューニング手法は重み適応に依存しており、解釈可能性に欠け、ヒューリスティックに選択されたハイパーパラメータに依存することが多い。本論文では、視点を変え、スプライン演算子というレンズを通して、重みから活性化関数に焦点を移す。曲率チューニング(Curvature Tuning: CT)は、活性化関数に1つのハイパーパラメータを注入することで、モデルの決定境界を調整する、解釈可能で原理的なステアリング手法である。我々は、CTがモデルの決定境界の曲率を証明的に調整し、より基本的には、モデルを滑らかな関数空間に投影することを示す。このハイパーパラメータを学習可能にすることで、新規でパラメータ効率の高いファインチューニング手法が生まれる。経験的に、CTは汎化性と頑健性の両方を向上させる。例えば、12個のデータセットにおいて、ResNet-50/152のダウンストリーム精度を線形プロービングより7.14%/8.46%、LoRAより4.64%/1.70%向上させ、RobustBenchの$ell_infty$ベンチマークにおけるロバスト精度を1032.64%/1494.46%向上させる。我々のコードはhttps://github.com/Leon-Leyang/curvature-tuning。

要約(オリジナル)

The scaling of model and data sizes has reshaped the AI landscape, establishing finetuning pretrained models as the standard paradigm for solving downstream tasks. However, dominant finetuning methods typically rely on weight adaptation, often lack interpretability, and depend on heuristically chosen hyperparameters. In this paper, we take a different perspective and shift the focus from weights to activation functions, viewing them through the lens of spline operators. We propose Curvature Tuning (CT), an interpretable and principled steering method that modulates a model’s decision boundary by injecting a single hyperparameter into its activation functions. We show that CT provably adjusts model decision boundary curvature and, more fundamentally, projects a model onto a space of smooth functions-thereby complementing current finetuning methods, whose effect lies primarily in feature adaptation. Making this hyperparameter trainable gives rise to a novel and highly parameter-efficient finetuning method. Empirically, CT improves both generalization and robustness. For example, it boosts downstream accuracy of ResNet-50/152 by 7.14%/8.46% over linear probing and 4.64%/1.70% over LoRA across 12 datasets, and improves robust accuracy on the $\ell_\infty$ benchmark from RobustBench by 1032.64%/1494.46%. Our code is available at https://github.com/Leon-Leyang/curvature-tuning.

arxiv情報

著者 Leyang Hu,Matteo Gamba,Randall Balestriero
発行日 2025-06-03 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク