REPAIR: REnormalizing Permuted Activations for Interpolation Repair

要約

この論文では、Entezari らの予想を検討します。
(2021) これは、ニューラル ネットワークの順列不変性が考慮される場合、SGD ソリューション間の線形補間に対する損失障壁はおそらく存在しないと述べています。
まず、分散崩壊と呼ばれる現象により、ニューロン アラインメント手法だけでは、SGD ソリューション間の低障壁の線形接続を確立するには不十分であることがわかりました。補間されたディープ ネットワークは、活性化の分散が崩壊し、パフォーマンスの低下を引き起こします。
次に、このような補間ネットワークの事前アクティブ化を再スケーリングすることで分散の崩壊を軽減する REPAIR (補間修復のための置換されたアクティブ化の再正規化) を提案します。
私たちは、私たちの手法と正規化層、ネットワーク幅、深さの選択との間の相互作用を調査し、ニューロンアライメント手法に加えて REPAIR を使用すると、さまざまなアーキテクチャ ファミリやタスクにわたって相対的なバリアが 60% ~ 100% 削減されることを実証します。

特に、ImageNet 上の ResNet50 では 74% のバリア削減、CIFAR10 上の ResNet18 では 90% のバリア削減が報告されています。

要約(オリジナル)

In this paper we look into the conjecture of Entezari et al. (2021) which states that if the permutation invariance of neural networks is taken into account, then there is likely no loss barrier to the linear interpolation between SGD solutions. First, we observe that neuron alignment methods alone are insufficient to establish low-barrier linear connectivity between SGD solutions due to a phenomenon we call variance collapse: interpolated deep networks suffer a collapse in the variance of their activations, causing poor performance. Next, we propose REPAIR (REnormalizing Permuted Activations for Interpolation Repair) which mitigates variance collapse by rescaling the preactivations of such interpolated networks. We explore the interaction between our method and the choice of normalization layer, network width, and depth, and demonstrate that using REPAIR on top of neuron alignment methods leads to 60%-100% relative barrier reduction across a wide variety of architecture families and tasks. In particular, we report a 74% barrier reduction for ResNet50 on ImageNet and 90% barrier reduction for ResNet18 on CIFAR10.

arxiv情報

著者 Keller Jordan,Hanie Sedghi,Olga Saukh,Rahim Entezari,Behnam Neyshabur
発行日 2023-09-25 17:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク