要約
2つのクラスの連続非凸重量モデルを使用して、ランダムパターンラベル関連を保存する問題を分析します。つまり、負のマージンを持つパーセプトロンと、非重複受容フィールドと一般的な活性化関数を備えた無限幅の2層ニューラルネットワークです。
Full-RSB Ansatzを使用して、SAT/UNSAT遷移の正確な値を計算します。
さらに、負のパーセプトロンの場合、典型的な状態のオーバーラップ分布が、保存するマージンの値とパターンの密度によって定義される位相図の特定の領域にオーバーラップギャップ(切断されたサポート)を表示することを示します。
これは、近似メッセージパッシング(AMP)ベースのアルゴリズムが容量に収束することを保証する最近の定理が適用されないことを意味します。
最後に、勾配降下は、典型的な状態のオーバーラップギャップの存在について、最大容量に到達できないことを示します。
この発見は、バイナリ重量モデルで発生するものと同様に、勾配ベースのアルゴリズムが非常に非定型状態に偏っていることを示唆しています。
要約(オリジナル)
We analyze the problem of storing random pattern-label associations using two classes of continuous non-convex weights models, namely the perceptron with negative margin and an infinite-width two-layer neural network with non-overlapping receptive fields and generic activation function. Using a full-RSB ansatz we compute the exact value of the SAT/UNSAT transition. Furthermore, in the case of the negative perceptron we show that the overlap distribution of typical states displays an overlap gap (a disconnected support) in certain regions of the phase diagram defined by the value of the margin and the density of patterns to be stored. This implies that some recent theorems that ensure convergence of Approximate Message Passing (AMP) based algorithms to capacity are not applicable. Finally, we show that Gradient Descent is not able to reach the maximal capacity, irrespectively of the presence of an overlap gap for typical states. This finding, similarly to what occurs in binary weight models, suggests that gradient-based algorithms are biased towards highly atypical states, whose inaccessibility determines the algorithmic threshold.
arxiv情報
著者 | Brandon L. Annesi,Enrico M. Malatesta,Francesco Zamponi |
発行日 | 2025-04-01 11:50:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google