要約
バックプロパゲーションに依存する反復差分近似法により、ニューラル ネットワークの最適化が可能になりました。
ただし、現時点では、特にモデルを大規模にトレーニングする場合、依然として計算コストが高くなります。
この論文では、ニューラル ネットワークのスケーリングのコストを削減し、低リソースのアプリケーションに高効率の最適化を提供できる、ニューラル ネットワークを最適化するための計算効率の高い代替案を提案します。
勾配を数学的に分析することにより、単純なフィードフォワード言語モデル (LM) に対する明示的な解を導き出します。
このソリューションの適用を MNIST 数字分類に拡張したことで示されているように、このソリューションは、単層 LM から、正の値の特徴でトレーニングされたすべての単層フィードフォワード ソフトマックス活性化ニューラル モデルのクラスまで一般化します。
LM 分類器と数字分類器の両方について、実験では陽的解法が最適に近い性能を発揮することが計算的にわかり、1) 反復最適化では陽的解法のパラメーターがわずかに改善されるだけであり、2) ランダムに初期化されたパラメーターが陽的解法に向けて反復的に最適化されることが示されています。
また、事前に多層ネットワークの層ごとに陽的解法をローカルに適用し、モデルの複雑さとともに解法の計算量節約がどのように増加するかについても議論します。陽的解法の単層アプリケーションと多層アプリケーションの両方について、達成される最適化は不可能であることを強調します。
つまり、より良い最適解は、陽的解法が適用された後にのみ発見可能であるように見えます。
最後に、このソリューションによる計算量の節約とモデルの解釈可能性への影響について説明し、複雑な多層アーキテクチャに対する陽的な解を導き出すための将来の方向性を提案します。
要約(オリジナル)
Iterative differential approximation methods that rely upon backpropagation have enabled the optimization of neural networks; however, at present, they remain computationally expensive, especially when training models at scale. In this paper, we propose a computationally efficient alternative for optimizing neural networks that can both reduce the costs of scaling neural networks and provide high-efficiency optimizations for low-resource applications. We derive an explicit solution to a simple feed-forward language model (LM) by mathematically analyzing its gradients. This solution generalizes from single-layer LMs to the class of all single-layer feed-forward softmax-activated neural models trained on positive-valued features, as is demonstrated by our extension of this solution application to MNIST digit classification. For both LM and digit classifiers, we find computationally that explicit solutions perform near-optimality in experiments showing that 1) iterative optimization only marginally improves the explicit solution parameters and 2) randomly initialized parameters iteratively optimize towards the explicit solution. We also preliminarily apply the explicit solution locally by layer in multi-layer networks and discuss how the solution’s computational savings increase with model complexity — for both single- and mult-layer applications of the explicit solution, we emphasize that the optima achieved cannot be reached by backpropagation alone, i.e., better optima appear discoverable only after explicit solutions are applied. Finally, we discuss the solution’s computational savings alongside its impact on model interpretability and suggest future directions for the derivation of explicit solutions to complex- and multi-layer architectures.
arxiv情報
著者 | Jake Ryland Williams,Haoran Zhao |
発行日 | 2023-11-13 17:38:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google