要約
私たちはニューラル ネットワーク トレーニング (NNT) について研究します。これは、特定のデータセットに対するトレーニング損失を最小限に抑えるためにニューラル ネットワークのパラメーターを最適化することです。
NNT は、主にパラメータが任意の実数値を取ることができる線形または ReLU 活性化関数を備えた 2 層ネットワーク (ここでは連続 NNT (C-NNT) と呼ばれます) について、理論レンズの下で広範囲に研究されています。
ただし、実際にはかなり強力な機能を発揮する、より深いニューラル ネットワークについてはあまり知られていません。
さらに、与えられた有限のオプションセットからパラメータを取得する問題の離散変形 (略して D-NNT) の複雑さは、その理論的および実践的な重要性にもかかわらず、あまり研究されていません。
この研究では、NNT の硬度がネットワークの深さによって劇的に影響されることを示します。
具体的には、標準的な複雑さの仮定の下では、固定次元とデータセット サイズを持つインスタンスであっても、深いアーキテクチャを持つ D-NNT が複雑さクラス NP に属さないことを示します。
これにより、D-NNT が NP 完全問題から分離されます。
さらに、多項式換算を使用して、より構造化されたインスタンスではあるものの、上記の結果が C-NNT にも当てはまることを示します。
これらの結果を、2 層ネットワーク上の D-NNT の NP 硬度の下限の包括的なリストで補完し、隠れ層の次元数、データセット サイズ、またはニューロンの数を固定すると問題が解決しないことが示されました。
最後に、固定データセット サイズの 2 層ネットワーク上の D-NNT の擬似多項式アルゴリズムを取得します。
要約(オリジナル)
We study neural network training (NNT): optimizing a neural network’s parameters to minimize the training loss over a given dataset. NNT has been studied extensively under theoretic lenses, mainly on two-layer networks with linear or ReLU activation functions where the parameters can take any real value (here referred to as continuous NNT (C-NNT)). However, less is known about deeper neural networks, which exhibit substantially stronger capabilities in practice. In addition, the complexity of the discrete variant of the problem (D-NNT in short), in which the parameters are taken from a given finite set of options, has remained less explored despite its theoretical and practical significance. In this work, we show that the hardness of NNT is dramatically affected by the network depth. Specifically, we show that, under standard complexity assumptions, D-NNT is not in the complexity class NP even for instances with fixed dimensions and dataset size, having a deep architecture. This separates D-NNT from any NP-complete problem. Furthermore, using a polynomial reduction we show that the above result also holds for C-NNT, albeit with more structured instances. We complement these results with a comprehensive list of NP-hardness lower bounds for D-NNT on two-layer networks, showing that fixing the number of dimensions, the dataset size, or the number of neurons in the hidden layer leaves the problem challenging. Finally, we obtain a pseudo-polynomial algorithm for D-NNT on a two-layer network with a fixed dataset size.
arxiv情報
著者 | Ilan Doron-Arad |
発行日 | 2024-12-17 16:20:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google