Black holes and the loss landscape in machine learning

要約

損失の状況を理解することは、機械学習における重要な問題です。
多くのニューラル ネットワーク アーキテクチャに共通する損失関数の重要な特徴の 1 つは、指数関数的に多くの低い位置にある極小値が存在することです。
同様のエネルギー状況を持つ物理システムは、有用な洞察を提供する可能性があります。
この研究では、ブラックホールのエントロピーの存在により、ブラックホールが自然にそのような風景を生み出すことを指摘します。
明確にするために、$\mathcal{N} = 8$ 弦理論の 1/8 BPS ブラック ホールを考慮します。
これらは、対応するブラック ホールの微視的記述で生じる潜在的な風景の無限のファミリーを提供します。
最小値のカウントは、ブラック ホールのマイクロステートのカウントに相当します。
さらに、これらの地形の最小値の正確な数は、弦理論の双対性からアプリオリに知られています。
最小値の一部は、モード接続に似た、低損失値のパスによって接続されています。
すべての解を見つけるのに必要な実行回数を推定します。
初期の調査では、確率的勾配降下法で最小値のかなりの部分を見つけることができることが示唆されています。

要約(オリジナル)

Understanding the loss landscape is an important problem in machine learning. One key feature of the loss function, common to many neural network architectures, is the presence of exponentially many low lying local minima. Physical systems with similar energy landscapes may provide useful insights. In this work, we point out that black holes naturally give rise to such landscapes, owing to the existence of black hole entropy. For definiteness, we consider 1/8 BPS black holes in $\mathcal{N} = 8$ string theory. These provide an infinite family of potential landscapes arising in the microscopic descriptions of corresponding black holes. The counting of minima amounts to black hole microstate counting. Moreover, the exact numbers of the minima for these landscapes are a priori known from dualities in string theory. Some of the minima are connected by paths of low loss values, resembling mode connectivity. We estimate the number of runs needed to find all the solutions. Initial explorations suggest that Stochastic Gradient Descent can find a significant fraction of the minima.

arxiv情報

著者 Pranav Kumar,Taniya Mandal,Swapnamay Mondal
発行日 2023-06-26 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, hep-th, stat.ML パーマリンク