Robust Fine-Tuning of Deep Neural Networks with Hessian-based Generalization Guarantees

要約

我々は、事前に学習したディープニューラルネットワークをターゲットタスク上で微調整する転移学習アプローチについて考察する。我々は、実際にしばしば起こるオーバーフィッティングの問題を理解するために、ファインチューニングの汎化特性を調査する。これまでの研究により、ファインチューニングの初期化からの距離を制約することで汎化が改善されることが示されている。PAC-Bayesian分析を用いて、初期化からの距離以外に、ヘシアンがノイズ注入に対する深層ニューラルネットワークのノイズ安定性を通じて汎化性に影響を与えることを観察する。この観測に動機付けられ、我々は幅広い微調整方法に対するヘシアン距離に基づく汎化境界を開発した。次に、ノイズの多いラベルを用いた微調整の頑健性を調査する。我々は、微調整のための一貫した損失と距離に基づく正則化を組み込んだアルゴリズムを設計する。さらに、学習データセットのラベルにおけるクラス条件付き独立ノイズの下で、我々のアルゴリズムの汎化誤差境界を証明する。我々は、様々なノイズの多い環境とアーキテクチャにおいて、我々のアルゴリズムの詳細な実証研究を行う。例えば、訓練ラベルがプログラムラベリングで生成された6つの画像分類タスクにおいて、先行手法と比較して3.26%の精度向上を示す。一方、本アルゴリズムを用いて微調整したネットワークのヘシアン距離尺度は、既存のアプローチに比べ6倍以上減少する。

要約(オリジナル)

We consider transfer learning approaches that fine-tune a pretrained deep neural network on a target task. We investigate generalization properties of fine-tuning to understand the problem of overfitting, which often happens in practice. Previous works have shown that constraining the distance from the initialization of fine-tuning improves generalization. Using a PAC-Bayesian analysis, we observe that besides distance from initialization, Hessians affect generalization through the noise stability of deep neural networks against noise injections. Motivated by the observation, we develop Hessian distance-based generalization bounds for a wide range of fine-tuning methods. Next, we investigate the robustness of fine-tuning with noisy labels. We design an algorithm that incorporates consistent losses and distance-based regularization for fine-tuning. Additionally, we prove a generalization error bound of our algorithm under class conditional independent noise in the training dataset labels. We perform a detailed empirical study of our algorithm on various noisy environments and architectures. For example, on six image classification tasks whose training labels are generated with programmatic labeling, we show a 3.26% accuracy improvement over prior methods. Meanwhile, the Hessian distance measure of the fine-tuned network using our algorithm decreases by six times more than existing approaches.

arxiv情報

著者 Haotian Ju,Dongyue Li,Hongyang R. Zhang
発行日 2022-06-06 14:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, math.ST, stat.ML, stat.TH パーマリンク