Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

要約

モデルサイズとデータサイズのスケーリングにより、AIのパラダイムが再構築されました。
その結果、最新のモデルを活用する一般的なプロトコルは、{\ em微調整}を通じて特定の目的のタスクに向かってそれらを導くことです。
その重要性にもかかわらず、微調整の主な方法は、フルランクアダプターまたは低いランクアダプターに限定されたままです。数え切れないほどのハイパーパラメーターと解釈可能性が不足しています。
この論文では、一歩後退し、最近開発されたディープネットワークの豊富な数学的フレーミングである{\ em spline演算子}から理論的に導き出すことができる斬新で説明可能なトレーニング後のステアリングソリューションを実証します。
私たちの方法 – Coined \ textBf {曲率チューニング(CT)} – は、トレーニングのないステアリングを可能にするモデルの決定境界の曲率を証明する単一のパラメーターを持っています。
これにより、CTは、従来の微調整方法よりも効率的で解釈可能になります。
私たちは、前提条件のモデルの一般化と堅牢性を改善する上でのその有効性を経験的に検証します。
たとえば、CTは、17のダウンストリームデータセットにわたってResNet-18/50の分散除外転送パフォーマンスを2.57 \%/1.74 \%改善し、堅牢なベンチの堅牢な精度を11.76 \%/348.44 \%に改善します。
さらに、CTをReluベースのSWIN-T/sに適用し、9つのダウンストリームデータセットでの一般化を2.43 \%/3.33 \%で改善します。
私たちのコードは、\ href {https://github.com/leon-leyang/curvature-tuning} {https://github.com/leon-leyang/curvature-tuningで入手できます。

要約(オリジナル)

The scaling of model size and data size has reshaped the paradigm of AI. As a result, the common protocol to leverage the latest models is to steer them towards a specific downstream task of interest through {\em fine-tuning}. Despite its importance, the main methods for fine-tuning remain limited to full or low-rank adapters–containing countless hyper-parameters and lacking interpretability. In this paper, we take a step back and demonstrate how novel and explainable post-training steering solutions can be derived theoretically from {\em spline operators}, a rich mathematical framing of Deep Networks that was recently developed. Our method–coined \textbf{Curvature Tuning (CT)}–has a single parameter that provably modulates the curvature of the model’s decision boundary henceforth allowing training-free steering. This makes CT both more efficient and interpretable than conventional fine-tuning methods. We empirically validate its effectiveness in improving generalization and robustness of pretrained models. For example, CT improves out-of-distribution transfer performances of ResNet-18/50 by 2.57\%/1.74\% across seventeen downstream datasets, and improves RobustBench robust accuracy by 11.76\%/348.44\%. Additionally, we apply CT to ReLU-based Swin-T/S, improving their generalization on nine downstream datasets by 2.43\%/3.33\%. Our code is available at \href{https://github.com/Leon-Leyang/curvature-tuning}{https://github.com/Leon-Leyang/curvature-tuning}.

arxiv情報

著者 Leyang Hu,Randall Balestriero
発行日 2025-02-11 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク