Trainable Projected Gradient Method for Robust Fine-tuning

要約

転移学習に関する最近の研究では、レイヤーのサブセットを選択的に微調整するか、レイヤーごとに異なる学習率をカスタマイズすることで、分布外 (OOD) データに対するロバスト性が大幅に向上し、事前トレーニング済みモデルの一般化機能が保持されることが示されています。
ただし、これらの方法のほとんどは、手動で作成されたヒューリスティックまたは高価なハイパーパラメーター検索を使用しているため、大規模なデータセットやニューラル ネットワークにスケールアップすることができません。
この問題を解決するために、Trainable Projected Gradient Method (TPGM) を提案して、各レイヤーに課せられる制約を自動的に学習し、きめの細かい微調整正則化を行います。
これは、2 レベルの制約付き最適化問題として微調整を定式化することによって動機付けられます。
具体的には、TPGM は一連の射影半径、つまり微調整されたモデルと事前トレーニング済みモデルの間の距離の制約をレイヤーごとに保持し、重み射影によってそれらを適用します。
制約を学習するために、最適な投影半径セットをエンドツーエンドで自動的に学習する 2 レベル最適化を提案します。
理論的には、2 レベル最適化定式化が TPGM の正則化機能を説明できることを示します。
経験的に、ハイパーパラメーターの検索コストがほとんどないため、TPGM は既存の微調整方法よりも OOD パフォーマンスが優れており、分布内 (ID) での最高のパフォーマンスに匹敵します。
たとえば、DomainNet-Real と ImageNet で微調整した場合、バニラの微調整と比較して、TPGM は、対応するスケッチでそれぞれ $22\%$ と $10\%$ の相対 OOD 改善を示します。
コードは \url{https://github.com/PotatoTian/TPGM} で入手できます。

要約(オリジナル)

Recent studies on transfer learning have shown that selectively fine-tuning a subset of layers or customizing different learning rates for each layer can greatly improve robustness to out-of-distribution (OOD) data and retain generalization capability in the pre-trained models. However, most of these methods employ manually crafted heuristics or expensive hyper-parameter searches, which prevent them from scaling up to large datasets and neural networks. To solve this problem, we propose Trainable Projected Gradient Method (TPGM) to automatically learn the constraint imposed for each layer for a fine-grained fine-tuning regularization. This is motivated by formulating fine-tuning as a bi-level constrained optimization problem. Specifically, TPGM maintains a set of projection radii, i.e., distance constraints between the fine-tuned model and the pre-trained model, for each layer, and enforces them through weight projections. To learn the constraints, we propose a bi-level optimization to automatically learn the best set of projection radii in an end-to-end manner. Theoretically, we show that the bi-level optimization formulation could explain the regularization capability of TPGM. Empirically, with little hyper-parameter search cost, TPGM outperforms existing fine-tuning methods in OOD performance while matching the best in-distribution (ID) performance. For example, when fine-tuned on DomainNet-Real and ImageNet, compared to vanilla fine-tuning, TPGM shows $22\%$ and $10\%$ relative OOD improvement respectively on their sketch counterparts. Code is available at \url{https://github.com/PotatoTian/TPGM}.

arxiv情報

著者 Junjiao Tian,Xiaoliang Dai,Chih-Yao Ma,Zecheng He,Yen-Cheng Liu,Zsolt Kira
発行日 2023-03-28 15:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク