Exploring Loss Landscapes through the Lens of Spin Glass Theory

要約

過去 10 年間における深層学習の大幅な進歩により、数多くの画期的なアプリケーションが誕生しました。
これらの進歩にもかかわらず、特にこのような過度にパラメータ化された空間における深層学習の高い汎用性についての理解は依然として限られています。
たとえば、ディープ ニューラル ネットワーク (DNN) では、その内部表現、意思決定メカニズム、過剰にパラメータ化された空間での過剰適合の欠如、優れた一般化可能性などは、依然としてほとんど理解されていません。
アプリケーションの成功は、多くの場合、科学的な成果ではなく、経験的な成果であると考えられます。
この論文は、DNN がどのように機能するかを理解するための新しい視点として、統計物理学におけるスピン グラスのレンズを通して DNN の損失状況を掘り下げます。スピン グラスは、多数の準安定状態を含む複雑なエネルギー状況を特徴とするシステムです。
Rectified Linear Unit (ReLU) 関数によって活性化された単一隠れ層ニューラル ネットワークの損失状況を調査し、DNN とスピン グラスの類似性を調べるためのいくつかのプロトコルを導入しました。
具体的には、(1) DNN のパラメータ空間でのランダム ウォークを使用して、損失状況の構造を解明しました。
(2) 隠れ層の順列対称性による損失ランドスケープ内の同一領域のコピー間の接続を研究するための順列補間プロトコル。
(3) スピングラスにおけるいわゆるレプリカ対称破れ (RSB) 現象 (すなわち、パリシ解) を彷彿とさせる、DNN の学習済み解間の階層を明らかにするための階層的クラスタリング。
(4) 最後に、DNN の損失状況の険しさと一般化可能性の関係を調べ、平坦化された最小値の改善を示します。

要約(オリジナル)

In the past decade, significant strides in deep learning have led to numerous groundbreaking applications. Despite these advancements, the understanding of the high generalizability of deep learning, especially in such an over-parametrized space, remains limited. For instance, in deep neural networks (DNNs), their internal representations, decision-making mechanism, absence of overfitting in an over-parametrized space, superior generalizability, etc., remain less understood. Successful applications are often considered as empirical rather than scientific achievement. This paper delves into the loss landscape of DNNs through the lens of spin glass in statistical physics, a system characterized by a complex energy landscape with numerous metastable states, as a novel perspective in understanding how DNNs work. We investigated the loss landscape of single hidden layer neural networks activated by Rectified Linear Unit (ReLU) function, and introduced several protocols to examine the analogy between DNNs and spin glass. Specifically, we used (1) random walk in the parameter space of DNNs to unravel the structures in their loss landscape; (2) a permutation-interpolation protocol to study the connection between copies of identical regions in the loss landscape due to the permutation symmetry in the hidden layers; (3) hierarchical clustering to reveal the hierarchy among trained solutions of DNNs, reminiscent of the so-called Replica Symmetry Breaking (RSB) phenomenon (i.e. the Parisi solution) in spin glass; (4) finally, we examine the relationship between the ruggedness of DNN’s loss landscape and its generalizability, showing an improvement of flattened minima.

arxiv情報

著者 Hao Liao,Wei Zhang,Zhanyi Huang,Zexiao Long,Mingyang Zhou,Xiaoqun Wu,Rui Mao,Chi Ho Yeung
発行日 2024-09-16 12:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI パーマリンク