HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full Context Interaction

要約

セルフ アテンション メカニズムは、トレーニング可能なパラメーターが非常に少ない内積ベースのアクティベーションを通じてプログラムされた大きな暗黙的な重み行列を利用して、長いシーケンスのモデリングを可能にします。
この論文では、ネットワークの各層で完全なコンテキスト相互作用を実現するために大規模な暗黙的カーネルを採用することによって残差学習を破棄する可能性を調査します。
これを達成するために、別の高速畳み込みネットワーク用のハイパーカーネルを生成する低速ネットワークとして座標ベースの暗黙的 MLP を導入します。
高速な動的エンコーディングのためにコンテキストに応じて変化する重みを取得するために、ハイパーカーネルを接続する $\mathrm{Hyper}\mathcal{Z{\cdot}Z{\cdot}W}$ 演算子を提案します ($\mathcal{W}$
) と単純な要素ごとの乗算による隠れた活性化 ($\mathcal{Z}$)、その後のコンテキスト依存の $\mathcal{W}$ を使用した $\mathcal{Z}$ の畳み込み。
この設計に基づいて、さまざまなサイズのハイパーカーネルを統合して、各層の特徴抽出能力を強化するためのマルチブランチの隠れ表現を生成する新しいターミネーター アーキテクチャを提案します。
さらに、ボトルネック層を使用して連結されたチャネルを圧縮し、貴重な情報のみを後続の層に伝播できるようにします。
特に、私たちのモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するためのローカル フィードバック エラーの導入、安定したゼロ平均特徴、より高速なトレーニング収束、より少ないモデル パラメーターなどの優れた特性を示します。
ピクセルレベルの 1D および 2D 画像分類ベンチマークに関する広範な実験結果は、当社のアーキテクチャの優れたパフォーマンスを実証しています。

要約(オリジナル)

The self-attention mechanism utilizes large implicit weight matrices, programmed through dot product-based activations with very few trainable parameters, to enable long sequence modeling. In this paper, we investigate the possibility of discarding residual learning by employing large implicit kernels to achieve full context interaction at each layer of the network. To accomplish it, we introduce coordinate-based implicit MLPs as a slow network to generate hyper-kernels for another fast convolutional network. To get context-varying weights for fast dynamic encoding, we propose a $\mathrm{Hyper}\mathcal{Z{\cdot}Z{\cdot}W}$ operator that connects hyper-kernels ($\mathcal{W}$) and hidden activations ($\mathcal{Z}$) through simple elementwise multiplication, followed by convolution of $\mathcal{Z}$ using the context-dependent $\mathcal{W}$. Based on this design, we present a novel Terminator architecture that integrates hyper-kernels of different sizes to produce multi-branch hidden representations for enhancing the feature extraction capability of each layer. Additionally, a bottleneck layer is employed to compress the concatenated channels, allowing only valuable information to propagate to the subsequent layers. Notably, our model incorporates several innovative components and exhibits excellent properties, such as introducing local feedback error for updating the slow network, stable zero-mean features, faster training convergence, and fewer model parameters. Extensive experimental results on pixel-level 1D and 2D image classification benchmarks demonstrate the superior performance of our architecture.

arxiv情報

著者 Harvie Zhang
発行日 2024-01-31 15:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク