A Tensor Decomposition Perspective on Second-order RNNs

要約

二次リカレント ニューラル ネットワーク (2RNN) は、シーケンス モデリングに二次相互作用を利用して RNN を拡張します。
これらのモデルは、一次モデルよりも表現力が豊かであることが証明されており、形式言語理論のよく研究されたモデルとのつながりがあります。
ただし、パラメーター テンソルが大きいため、計算が困難になります。
この問題を回避するために、MIRNN として知られるアプローチの 1 つは、モデルで使用される相互作用の種類を制限することにあります。
もう 1 つは、テンソル分解を利用してパラメータ数を減らすことです。
この研究では、CP 分解を使用して 2RNN をパラメータ化した結果として得られるモデル (CPRNN と呼ばれます) を研究します。
直感的には、分解のランクによって表現力が低下するはずです。
ランクと隠れサイズがモデルの容量にどのような影響を与えるかを分析し、これらのパラメーターに基づいて RNN、2RNN、MIRNN、CPRNN 間の関係を示します。
これらの結果は、Penn Treebank データセットでの実験で経験的に裏付けられており、固定パラメーターの予算で、ランクと隠れサイズを適切に選択すると、CPRNN が RNN、2RNN、MIRNN よりも優れたパフォーマンスを発揮することが実証されています。

要約(オリジナル)

Second-order Recurrent Neural Networks (2RNNs) extend RNNs by leveraging second-order interactions for sequence modelling. These models are provably more expressive than their first-order counterparts and have connections to well-studied models from formal language theory. However, their large parameter tensor makes computations intractable. To circumvent this issue, one approach known as MIRNN consists in limiting the type of interactions used by the model. Another is to leverage tensor decomposition to diminish the parameter count. In this work, we study the model resulting from parameterizing 2RNNs using the CP decomposition, which we call CPRNN. Intuitively, the rank of the decomposition should reduce expressivity. We analyze how rank and hidden size affect model capacity and show the relationships between RNNs, 2RNNs, MIRNNs, and CPRNNs based on these parameters. We support these results empirically with experiments on the Penn Treebank dataset which demonstrate that, with a fixed parameter budget, CPRNNs outperforms RNNs, 2RNNs, and MIRNNs with the right choice of rank and hidden size.

arxiv情報

著者 Maude Lizaire,Michael Rizvi-Martel,Marawan Gamal Abdel Hameed,Guillaume Rabusseau
発行日 2024-06-07 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク