Sampling-Based Techniques for Training Deep Neural Networks with Limited Computational Resources: A Scalability Evaluation

要約

ディープ ニューラル ネットワークは、複雑な表現の学習において浅いネットワークよりも優れています。
そのため、大規模な環境でそれらを利用することへの関心が急速に高まっています。
ニューラル ネットワークのトレーニング プロセスには時間がかかることがすでに知られており、深いアーキテクチャを持つことは問題を悪化させるだけです。
この処理は主に行列演算で構成されますが、その中で行列の乗算がボトルネックとなります。
行列積を近似することによってディープ ニューラル ネットワークのトレーニング時間を短縮するために、いくつかのサンプリング ベースの手法が提案されています。
これらの手法は 2 つのカテゴリに分類されます: (i) すべての隠れ層のノードのサブセットを反復ごとにアクティブとしてサンプリングする、および (ii) 前の層からノードのサブセットをサンプリングして、サンプリングされたノードのエッジを使用して現在の層のアクティブ化を近似する

どちらの場合も、行列積は選択されたサンプルのみを使用して計算されます。
この論文では、計算リソースが限られた CPU マシン上でのこれらのアプローチのスケーラビリティを評価します。
ニューラル ネットワークのコンテキストで行列乗算を近似する特殊なケースとして 2 つの研究方向を関連付けて、フィードフォワード近似がスケーラビリティに対する障害であることを示す否定的な理論分析を提供します。
私たちは、研究されたアプローチに関連する最も差し迫った課題と限界を実証する包括的な実験評価を実施します。
ハッシュ ベースのノード選択方法は多数のレイヤーに拡張できないことがわかり、理論的分析が裏付けられます。
最後に、今後の研究の方向性を確認します。

要約(オリジナル)

Deep neural networks are superior to shallow networks in learning complex representations. As such, there is a fast-growing interest in utilizing them in large-scale settings. The training process of neural networks is already known to be time-consuming, and having a deep architecture only aggravates the issue. This process consists mostly of matrix operations, among which matrix multiplication is the bottleneck. Several sampling-based techniques have been proposed for speeding up the training time of deep neural networks by approximating the matrix products. These techniques fall under two categories: (i) sampling a subset of nodes in every hidden layer as active at every iteration and (ii) sampling a subset of nodes from the previous layer to approximate the current layer’s activations using the edges from the sampled nodes. In both cases, the matrix products are computed using only the selected samples. In this paper, we evaluate the scalability of these approaches on CPU machines with limited computational resources. Making a connection between the two research directions as special cases of approximating matrix multiplications in the context of neural networks, we provide a negative theoretical analysis that shows feedforward approximation is an obstacle against scalability. We conduct comprehensive experimental evaluations that demonstrate the most pressing challenges and limitations associated with the studied approaches. We observe that the hashing-based node selection method is not scalable to a large number of layers, confirming our theoretical analysis. Finally, we identify directions for future research.

arxiv情報

著者 Sana Ebrahimi,Rishi Advani,Abolfazl Asudeh
発行日 2023-06-15 17:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク