要約
この論文では、Entezari et al. (2021) の予想を調べます。この予想では、ニューラル ネットワークの順列不変性が考慮される場合、SGD ソリューション間の線形補間に対する損失障壁はおそらく存在しないと述べています。
まず、分散の崩壊と呼ばれる現象により、SGD ソリューション間のバリアの低い線形接続を確立するには、ニューロンの整列方法だけでは不十分であることがわかります。補間された深いネットワークは、活性化の分散が崩壊し、パフォーマンスが低下します。
次に、そのような補間されたネットワークの事前活性化を再スケーリングすることにより、分散の崩壊を軽減する REPAIR (補間修復のための置換された活性化の再正規化) を提案します。
私たちの方法と、正規化層、ネットワーク幅、および深さの選択との間の相互作用を調査し、ニューロン整列方法の上に REPAIR を使用すると、さまざまなアーキテクチャ ファミリおよびタスクにわたって 60% ~ 100% の相対的な障壁が削減されることを示します。
.
特に、ImageNet の ResNet50 では 74% のバリア削減、CIFAR10 では ResNet18 の 90% のバリア削減が報告されています。
要約(オリジナル)
In this paper we look into the conjecture of Entezari et al.(2021) which states that if the permutation invariance of neural networks is taken into account, then there is likely no loss barrier to the linear interpolation between SGD solutions. First, we observe that neuron alignment methods alone are insufficient to establish low-barrier linear connectivity between SGD solutions due to a phenomenon we call variance collapse: interpolated deep networks suffer a collapse in the variance of their activations, causing poor performance. Next, we propose REPAIR (REnormalizing Permuted Activations for Interpolation Repair) which mitigates variance collapse by rescaling the preactivations of such interpolated networks. We explore the interaction between our method and the choice of normalization layer, network width, and depth, and demonstrate that using REPAIR on top of neuron alignment methods leads to 60%-100% relative barrier reduction across a wide variety of architecture families and tasks. In particular, we report a 74% barrier reduction for ResNet50 on ImageNet and 90% barrier reduction for ResNet18 on CIFAR10.
arxiv情報
著者 | Keller Jordan,Hanie Sedghi,Olga Saukh,Rahim Entezari,Behnam Neyshabur |
発行日 | 2022-11-15 18:45:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google