要約
大規模なニューラル モデルを実行する際の計算コストを改善するための一般的な手法は、スパース化、つまりトレーニング中のニューラル接続の枝刈りです。
スパース モデルは、より倹約的なモデルを犠牲にして機能しながら、最先端のモデルの高精度を維持することができます。
ただし、スパース アーキテクチャの基礎となる構造はほとんど理解されておらず、異なるトレーニングを施したモデルとスパース化スキーム間で一貫性がありません。
この論文では、マグニチュード プルーニングと組み合わせた、モジュライ正則化と呼ばれるリカレント ニューラル ネット (RNN) のスパース化のための新しい手法を提案します。
モジュライ正則化は、回帰構造によって誘発される動的システムを利用して、RNN の隠れた状態のニューロン間の幾何学的関係を誘発します。
正則化項を明示的に幾何学的にすることにより、私たちの知る限り、ニューラル ネットワークの望ましい疎アーキテクチャのアプリオリな記述と、RNN ジオメトリの明示的なエンドツーエンド学習が提供されます。
私たちは、さまざまな条件下でのスキームの有効性を検証し、ナビゲーション、自然言語処理、追加 RNN でのテストを行います。
ナビゲーションは構造的に幾何学的なタスクであり、既知のモジュライ空間が存在します。適切なモジュライ空間に従って係数が選択された場合にのみ、正則化を使用してモデルのパフォーマンスを維持しながら 90% のスパース性に到達できることを示します。
ただし、自然言語の処理と加算には、計算が実行される既知のモジュライ空間がありません。
それにもかかわらず、我々は、モジュライ正則化がより安定したリカレント ニューラル ネットを誘導し、90% を超えるスパース性の高い忠実度のモデルを達成することを示します。
要約(オリジナル)
A common technique for ameliorating the computational costs of running large neural models is sparsification, or the pruning of neural connections during training. Sparse models are capable of maintaining the high accuracy of state of the art models, while functioning at the cost of more parsimonious models. The structures which underlie sparse architectures are, however, poorly understood and not consistent between differently trained models and sparsification schemes. In this paper, we propose a new technique for sparsification of recurrent neural nets (RNNs), called moduli regularization, in combination with magnitude pruning. Moduli regularization leverages the dynamical system induced by the recurrent structure to induce a geometric relationship between neurons in the hidden state of the RNN. By making our regularizing term explicitly geometric, we provide the first, to our knowledge, a priori description of the desired sparse architecture of our neural net, as well as explicit end-to-end learning of RNN geometry. We verify the effectiveness of our scheme under diverse conditions, testing in navigation, natural language processing, and addition RNNs. Navigation is a structurally geometric task, for which there are known moduli spaces, and we show that regularization can be used to reach 90% sparsity while maintaining model performance only when coefficients are chosen in accordance with a suitable moduli space. Natural language processing and addition, however, have no known moduli space in which computations are performed. Nevertheless, we show that moduli regularization induces more stable recurrent neural nets, and achieves high fidelity models above 90% sparsity.
arxiv情報
著者 | Wyatt Mackey,Ioannis Schizas,Jared Deighton,David L. Boothe, Jr.,Vasileios Maroulas |
発行日 | 2024-12-13 18:12:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google