[Experiments & Analysis] Evaluating the Feasibility of Sampling-Based Techniques for Training Multilayer Perceptrons

要約

ニューラル ネットワークのトレーニング プロセスは時間がかかることが知られており、深いアーキテクチャを持つと問題が悪化するだけです。
この処理は主に行列演算で構成されますが、その中で行列の乗算がボトルネックとなります。
行列積を近似することによってディープ ニューラル ネットワークのトレーニング時間を短縮するために、いくつかのサンプリング ベースの手法が提案されています。
これらの手法は 2 つのカテゴリに分類されます: (i) すべての隠れ層のノードのサブセットを反復ごとにアクティブとしてサンプリングする、および (ii) 前の層からノードのサブセットをサンプリングして、サンプリングされたノードのエッジを使用して現在の層のアクティブ化を近似する

どちらの場合も、行列積は選択されたサンプルのみを使用して計算されます。
この論文では、計算リソースが限られた CPU マシン上でのこれらのアプローチの実現可能性を評価します。
ニューラル ネットワークのコンテキストで行列乗算を近似する特殊なケースとして 2 つの研究方向を関連付けて、フィードフォワード近似がスケーラビリティに対する障害であることを示す否定的な理論分析を提供します。
私たちは、研究されたアプローチに関連する最も差し迫った課題と限界を実証する包括的な実験評価を実施します。
ハッシュ ベースのノード選択方法は多数のレイヤーに拡張可能ではないことが観察され、理論的分析が裏付けられます。
最後に、今後の研究の方向性を確認します。

要約(オリジナル)

The training process of neural networks is known to be time-consuming, and having a deep architecture only aggravates the issue. This process consists mostly of matrix operations, among which matrix multiplication is the bottleneck. Several sampling-based techniques have been proposed for speeding up the training time of deep neural networks by approximating the matrix products. These techniques fall under two categories: (i) sampling a subset of nodes in every hidden layer as active at every iteration and (ii) sampling a subset of nodes from the previous layer to approximate the current layer’s activations using the edges from the sampled nodes. In both cases, the matrix products are computed using only the selected samples. In this paper, we evaluate the feasibility of these approaches on CPU machines with limited computational resources. Making a connection between the two research directions as special cases of approximating matrix multiplications in the context of neural networks, we provide a negative theoretical analysis that shows feedforward approximation is an obstacle against scalability. We conduct comprehensive experimental evaluations that demonstrate the most pressing challenges and limitations associated with the studied approaches. We observe that the hashing-based node selection method is not scalable to a large number of layers, confirming our theoretical analysis. Finally, we identify directions for future research.

arxiv情報

著者 Sana Ebrahimi,Rishi Advani,Abolfazl Asudeh
発行日 2024-06-20 16:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク