Universal Approximation Theory: Foundations for Parallelism in Neural Networks

要約

ニューラル ネットワークは、ビッグ データを使用して大規模なモデルをトレーニングする方向にますます進化しています。この方法は、多くのタスクにわたって優れたパフォーマンスを実証しています。
ただし、このアプローチでは差し迫った問題が生じます。現在の深層学習モデルは主にシリアル型です。つまり、ネットワーク層の数が増加すると、トレーニングと推論の時間も増加します。
ディープラーニングが今後も進歩し続けるためには、これは容認できません。
したがって、この論文では、普遍近似定理 (UAT) に基づいた深層学習の並列化戦略を提案します。
この基礎に基づいて、理論をテストするために Para-Former と呼ばれる並列ネットワークを設計しました。
従来のシリアル モデルとは異なり、Para-Former の推論時間は層の数に応じて増加せず、多層ネットワークの推論速度が大幅に高速化されます。
実験結果により、このネットワークの有効性が検証されています。

要約(オリジナル)

Neural networks are increasingly evolving towards training large models with big data, a method that has demonstrated superior performance across many tasks. However, this approach introduces an urgent problem: current deep learning models are predominantly serial, meaning that as the number of network layers increases, so do the training and inference times. This is unacceptable if deep learning is to continue advancing. Therefore, this paper proposes a deep learning parallelization strategy based on the Universal Approximation Theorem (UAT). From this foundation, we designed a parallel network called Para-Former to test our theory. Unlike traditional serial models, the inference time of Para-Former does not increase with the number of layers, significantly accelerating the inference speed of multi-layer networks. Experimental results validate the effectiveness of this network.

arxiv情報

著者 Wei Wang,Qing Li
発行日 2024-07-31 15:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク