Weight Sparsity Complements Activity Sparsity in Neuromorphic Language Models

要約

アクティビティとパラメーターのスパース性は、ニューラル ネットワークの計算効率を高める 2 つの標準的な方法です。
スパイキング ニューラル ネットワーク (SNN) などのイベントベースのアーキテクチャは、自然にアクティビティの疎性を示し、重みを枝刈りすることで接続性を疎にする方法が多数存在します。
フィードフォワード SNN に対する重み枝刈りの効果は、コンピュータ ビジョン タスクに関して以前に研究されていますが、言語モデリングのような複雑なシーケンス タスクに対する枝刈りの効果は、SNN が伝統的にこれらのタスクで意味のあるパフォーマンスを達成するのに苦労しているため、あまりよく研究されていません。
小規模言語モデリングでうまく機能する最近公開された SNN のようなアーキテクチャを使用して、アクティビティのスパース性と組み合わせた場合の重み枝刈りの効果を研究します。
具体的には、組み合わせによって得られる乗算効率の向上と、言語モデリングのタスクのパフォーマンスに対するその効果との間のトレードオフを研究します。
2 つのスパース性の影響を分析するために、さまざまな程度の接続スパース性にわたって、高密度でアクティブ化されたモデルとまばらにアクティブ化されたイベントベースのモデルの間で比較分析を実行します。
Penn Treebank および WikiText-2 言語モデリング データセットでトレーニングされたイベントベースのニューラル ネットワークのタスク パフォーマンスが比例的に低下することなく、まばらなアクティビティとまばらな接続が相互に補完することを実証します。
私たちの結果は、疎に接続されたイベントベースのニューラル ネットワークが、効果的かつ効率的なシーケンス モデリングの有望な候補であることを示唆しています。

要約(オリジナル)

Activity and parameter sparsity are two standard methods of making neural networks computationally more efficient. Event-based architectures such as spiking neural networks (SNNs) naturally exhibit activity sparsity, and many methods exist to sparsify their connectivity by pruning weights. While the effect of weight pruning on feed-forward SNNs has been previously studied for computer vision tasks, the effects of pruning for complex sequence tasks like language modeling are less well studied since SNNs have traditionally struggled to achieve meaningful performance on these tasks. Using a recently published SNN-like architecture that works well on small-scale language modeling, we study the effects of weight pruning when combined with activity sparsity. Specifically, we study the trade-off between the multiplicative efficiency gains the combination affords and its effect on task performance for language modeling. To dissect the effects of the two sparsities, we conduct a comparative analysis between densely activated models and sparsely activated event-based models across varying degrees of connectivity sparsity. We demonstrate that sparse activity and sparse connectivity complement each other without a proportional drop in task performance for an event-based neural network trained on the Penn Treebank and WikiText-2 language modeling datasets. Our results suggest sparsely connected event-based neural networks are promising candidates for effective and efficient sequence modeling.

arxiv情報

著者 Rishav Mukherji,Mark Schöne,Khaleelulla Khan Nazeer,Christian Mayr,David Kappel,Anand Subramoney
発行日 2024-05-01 10:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク