要約
この論文では、再現カーネル バナッハ空間の新しいクラスであるベクトル値変動空間の開発を通じて、ベクトル値ニューラル ネットワークの解析のための新しい理論的枠組みを紹介します。
これらの空間は、修正線形単位 (ReLU) のような活性化を伴うトレーニング ネットワークにおける重み減衰の正則化効果の研究から生まれます。
このフレームワークは、マルチ出力ネットワークとその機能空間特性についてのより深い理解を提供します。
この研究の主な貢献は、ベクトル値変動空間の表現者定理の開発です。
この表現者定理は、浅いベクトル値ニューラル ネットワークが、ネットワーク幅がトレーニング データの数の 2 乗によって制限される無限次元空間におけるデータ フィッティング問題の解決策であることを確立します。
この観察は、これらのベクトル値変動空間に関連付けられたノルムが複数のタスクに役立つ特徴の学習を促進し、ニューラル ネットワークによるマルチタスク学習に新たな光を当てていることを明らかにしています。
最後に、この論文は重み減衰の正則化とマルチタスクなげなわ問題との関係を展開します。
この関係により、トレーニング データ表現の固有の次元に依存するディープ ネットワークの層幅の新しい境界がもたらされます。
この洞察により、ディープ ネットワークのアーキテクチャ要件の理解が深まるだけでなく、ディープ ニューラル ネットワーク圧縮のための単純な凸型最適化手法も得られます。
この圧縮手順のパフォーマンスは、さまざまなアーキテクチャで評価されます。
要約(オリジナル)
This paper introduces a novel theoretical framework for the analysis of vector-valued neural networks through the development of vector-valued variation spaces, a new class of reproducing kernel Banach spaces. These spaces emerge from studying the regularization effect of weight decay in training networks with activations like the rectified linear unit (ReLU). This framework offers a deeper understanding of multi-output networks and their function-space characteristics. A key contribution of this work is the development of a representer theorem for the vector-valued variation spaces. This representer theorem establishes that shallow vector-valued neural networks are the solutions to data-fitting problems over these infinite-dimensional spaces, where the network widths are bounded by the square of the number of training data. This observation reveals that the norm associated with these vector-valued variation spaces encourages the learning of features that are useful for multiple tasks, shedding new light on multi-task learning with neural networks. Finally, this paper develops a connection between weight-decay regularization and the multi-task lasso problem. This connection leads to novel bounds for layer widths in deep networks that depend on the intrinsic dimensions of the training data representations. This insight not only deepens the understanding of the deep network architectural requirements, but also yields a simple convex optimization method for deep neural network compression. The performance of this compression procedure is evaluated on various architectures.
arxiv情報
著者 | Joseph Shenouda,Rahul Parhi,Kangwook Lee,Robert D. Nowak |
発行日 | 2024-07-24 15:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google