Make Deep Networks Shallow Again

要約

ディープ ニューラル ネットワークには優れた成功実績があるため、複雑なアプリケーションに最適なアーキテクチャの選択肢とみなされています。
長い間、それらの主な欠点は、数値最適化アルゴリズムが許容できる収束を妨げる勾配の消失でした。
画期的な進歩は、残留接続の概念、つまり従来の層と並行したアイデンティティ マッピングによって達成されました。
この概念は、同じ寸法の層のスタックに適用でき、勾配消失の問題を大幅に軽減します。
残りの接続層のスタックは、テイラー展開と同様の項の展開として表現できます。
この拡張は、高次項を切り捨て、最初に並列にスタックされたすべての層で構成される単一の広範な層で構成されるアーキテクチャを受け取る可能性を示唆しています。
言い換えれば、シーケンシャルで深いアーキテクチャが、並列で浅いアーキテクチャに置き換えられます。
この理論に基づいて、私たちは逐次アーキテクチャと比較して並列アーキテクチャのパフォーマンス能力を調査しました。
コンピューター ビジョン データセット MNIST と CIFAR10 を使用して、さまざまな数の畳み込み層、フィルターの数、カーネル サイズ、その他のメタ パラメーターの合計 6912 の組み合わせについて両方のアーキテクチャをトレーニングしました。
私たちの調査結果は、深い (シーケンシャル) アーキテクチャと浅い (並列) アーキテクチャの間の驚くべき同等性を示しています。
どちらのレイアウトでも、トレーニングと検証セットの損失に関して同様の結果が得られました。
この発見は、広く浅いアーキテクチャがパフォーマンスを犠牲にすることなく深いネットワークを置き換えられる可能性があることを意味します。
このような置き換えにより、ネットワーク アーキテクチャが簡素化され、最適化効率が向上し、トレーニング プロセスが加速される可能性があります。

要約(オリジナル)

Deep neural networks have a good success record and are thus viewed as the best architecture choice for complex applications. Their main shortcoming has been, for a long time, the vanishing gradient which prevented the numerical optimization algorithms from acceptable convergence. A breakthrough has been achieved by the concept of residual connections — an identity mapping parallel to a conventional layer. This concept is applicable to stacks of layers of the same dimension and substantially alleviates the vanishing gradient problem. A stack of residual connection layers can be expressed as an expansion of terms similar to the Taylor expansion. This expansion suggests the possibility of truncating the higher-order terms and receiving an architecture consisting of a single broad layer composed of all initially stacked layers in parallel. In other words, a sequential deep architecture is substituted by a parallel shallow one. Prompted by this theory, we investigated the performance capabilities of the parallel architecture in comparison to the sequential one. The computer vision datasets MNIST and CIFAR10 were used to train both architectures for a total of 6912 combinations of varying numbers of convolutional layers, numbers of filters, kernel sizes, and other meta parameters. Our findings demonstrate a surprising equivalence between the deep (sequential) and shallow (parallel) architectures. Both layouts produced similar results in terms of training and validation set loss. This discovery implies that a wide, shallow architecture can potentially replace a deep network without sacrificing performance. Such substitution has the potential to simplify network architectures, improve optimization efficiency, and accelerate the training process.

arxiv情報

著者 Bernhard Bermeitinger,Tomas Hrycej,Siegfried Handschuh
発行日 2023-09-15 14:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク