A Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness

要約

MLP ブロックの活性化スパース性に関する最近の経験的観察 (Li et al., 2022b) は、無料で計算コストを大幅に削減する機会を提供します。
活性化スパーシティの既存の理論的説明は、それがトレーニング ダイナミクスに起因すると考えられていますが、多数のステップで標準的にトレーニングされた深いモデルで出現したにもかかわらず、浅いネットワーク、小さなトレーニング ステップ、および特別なトレーニングに限定されています。
これらのギャップを埋めるために、活性化スパース性の 1 つの原因としての勾配スパース性の概念と、スパース性が敵対的ロバスト性への必要なステップであると考えるそれに基づく理論的説明を提案します。
隠れた特徴とパラメータ。これは、十分に学習されたモデルの最小値のほぼ平坦度です。
この理論は、標準的にトレーニングされた LayerNorm でトレーニングされた MLP に適用され、さらに重みノイズでトレーニングされたトランスフォーマーやその他のアーキテクチャにも適用されます。
スパース性を除く他の平坦性の原因を排除すると、重み行列の最大と最小の非ゼロ特異値の間の比が小さいという現象が発見されます。
このスペクトル集中の出現について議論するとき、確率的勾配ノイズを分析するための強力なツールとしてランダム行列理論 (RMT) を使用します。
勾配スパース性に基づく説明を検証するために検証実験が行われます。
私たちは、スパース性のトレーニングと微調整の両方のために 2 つのプラグアンドプレイ モジュールを提案します。
ImageNet-1k と C4 の実験では、スパース性が 50% 改善されたことが実証されており、トレーニングと推論の両方でさらなるコスト削減の可能性が示されています。

要約(オリジナル)

A recent empirical observation (Li et al., 2022b) of activation sparsity in MLP blocks offers an opportunity to drastically reduce computation costs for free. Although having attributed it to training dynamics, existing theoretical explanations of activation sparsity are restricted to shallow networks, small training steps and special training, despite its emergence in deep models standardly trained for a large number of steps. To fill these gaps, we propose the notion of gradient sparsity as one source of activation sparsity and a theoretical explanation based on it that sees sparsity a necessary step to adversarial robustness w.r.t. hidden features and parameters, which is approximately the flatness of minima for well-learned models. The theory applies to standardly trained LayerNorm-ed MLPs, and further to Transformers or other architectures trained with weight noises. Eliminating other sources of flatness except for sparsity, we discover the phenomenon that the ratio between the largest and smallest non-zero singular values of weight matrices is small. When discussing the emergence of this spectral concentration, we use random matrix theory (RMT) as a powerful tool to analyze stochastic gradient noises. Validational experiments are conducted to verify our gradient-sparsity-based explanation. We propose two plug-and-play modules for both training and finetuning for sparsity. Experiments on ImageNet-1k and C4 demonstrate their 50% sparsity improvements, indicating further potential cost reduction in both training and inference.

arxiv情報

著者 Ze Peng,Lei Qi,Yinghuan Shi,Yang Gao
発行日 2023-10-13 13:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク