要約
Deらによる最近の研究。
(2022) は、特徴空間の次元が高いにもかかわらず、公開データセットでの事前トレーニングによる大規模表現学習が、下流タスクにおける差分プライベート (DP) 学習を大幅に強化すると報告しました。
この現象を理論的に説明するために、表現学習における層剥離モデルの設定を検討します。これにより、ニューラル コラプス (NC) として知られる、深層学習と転移学習の学習された特徴に関連する興味深い現象が生じます。
NC のフレームワーク内で、実際の特徴と理想的な特徴の間の距離がしきい値より小さい場合、誤分類誤差が次元に依存しないことを示す誤差限界を確立します。
さらに、最後の層の特徴の品質は、NC のフレームワーク内のさまざまな事前トレーニング済みモデルの下で経験的に評価され、より強力な変換器がより優れた特徴表現につながることを示しています。
さらに、DP 微調整は、特に摂動が存在する場合、DP を使用しない微調整に比べてロバスト性が低いことを明らかにします。
これらの観察は、理論的分析と実験的評価の両方によって裏付けられています。
さらに、DP 微調整の堅牢性を強化するために、特徴の正規化や主成分分析 (PCA) などの次元削減手法の採用など、いくつかの戦略を提案します。
最終層のフィーチャに対して PCA を実行することにより、テスト精度が大幅に向上することが経験的に証明されています。
要約(オリジナル)
A recent study by De et al. (2022) has reported that large-scale representation learning through pre-training on a public dataset significantly enhances differentially private (DP) learning in downstream tasks, despite the high dimensionality of the feature space. To theoretically explain this phenomenon, we consider the setting of a layer-peeled model in representation learning, which results in interesting phenomena related to learned features in deep learning and transfer learning, known as Neural Collapse (NC). Within the framework of NC, we establish an error bound indicating that the misclassification error is independent of dimension when the distance between actual features and the ideal ones is smaller than a threshold. Additionally, the quality of the features in the last layer is empirically evaluated under different pre-trained models within the framework of NC, showing that a more powerful transformer leads to a better feature representation. Furthermore, we reveal that DP fine-tuning is less robust compared to fine-tuning without DP, particularly in the presence of perturbations. These observations are supported by both theoretical analyses and experimental evaluation. Moreover, to enhance the robustness of DP fine-tuning, we suggest several strategies, such as feature normalization or employing dimension reduction methods like Principal Component Analysis (PCA). Empirically, we demonstrate a significant improvement in testing accuracy by conducting PCA on the last-layer features.
arxiv情報
著者 | Chendi Wang,Yuqing Zhu,Weijie J. Su,Yu-Xiang Wang |
発行日 | 2024-05-16 12:06:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google