要約
私たちは、有限群 $G$ に対して、密に接続された、つまりすべての可能なスキップ接続を含む、ReLU 活性化を備えた $G$ 不変ディープ ニューラル ネットワーク ($G$-DNN) アーキテクチャを導入して調査します。
文献にある他の $G$-invariant アーキテクチャとは対照的に、ここで紹介する $G$-DNN の事前アクティブ化は、$G$ の \emph{signed} 順列表現 (signed perm-reps) によって変換できます。
さらに、$G$-DNN の個々の層は $G$ と等価である必要はありません。
代わりに、事前アクティブ化は、すべての層にわたって重みを結合する方法で、ネットワーク入力の $G$ 等変関数になるように制約されます。
その結果、これまでに見たことのない、より豊富な $G$ 不変アーキテクチャのファミリーが誕生しました。
重みの再パラメータ化後の $G$-DNN の効率的な実装と、アーキテクチャが「許容可能」であるための必要十分条件、つまり非縮退でより小さいアーキテクチャと同等であるための必要十分条件を導き出します。
ユーザーが $G$-DNN をレイヤーごとにインタラクティブに構築できるコードが含まれており、最終的なアーキテクチャは許容できることが保証されています。
文献からの「連結された ReLU」活性化関数でアクセスできるものよりもはるかに多くの許容可能な $G$-DNN アーキテクチャがあることを示します。
最後に、$G$-DNN を 2 つの問題例に適用します — (1) $\{-1, 1\}$ の乗算 (理論的保証あり) と (2) 3D オブジェクトの分類 — が含まれることを発見します。
署名付きパーマ レップは、通常の (つまり、符号なし) パーマ レップのみを使用したベースラインと比較して、予測パフォーマンスを大幅に向上させます。
要約(オリジナル)
We introduce and investigate, for finite groups $G$, $G$-invariant deep neural network ($G$-DNN) architectures with ReLU activation that are densely connected– i.e., include all possible skip connections. In contrast to other $G$-invariant architectures in the literature, the preactivations of the$G$-DNNs presented here are able to transform by \emph{signed} permutation representations (signed perm-reps) of $G$. Moreover, the individual layers of the $G$-DNNs are not required to be $G$-equivariant; instead, the preactivations are constrained to be $G$-equivariant functions of the network input in a way that couples weights across all layers. The result is a richer family of $G$-invariant architectures never seen previously. We derive an efficient implementation of $G$-DNNs after a reparameterization of weights, as well as necessary and sufficient conditions for an architecture to be “admissible”– i.e., nondegenerate and inequivalent to smaller architectures. We include code that allows a user to build a $G$-DNN interactively layer-by-layer, with the final architecture guaranteed to be admissible. We show that there are far more admissible $G$-DNN architectures than those accessible with the “concatenated ReLU” activation function from the literature. Finally, we apply $G$-DNNs to two example problems — (1) multiplication in $\{-1, 1\}$ (with theoretical guarantees) and (2) 3D object classification — % finding that the inclusion of signed perm-reps significantly boosts predictive performance compared to baselines with only ordinary (i.e., unsigned) perm-reps.
arxiv情報
著者 | Devanshu Agrawal,James Ostrowski |
発行日 | 2023-10-17 17:06:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google