要約
畳み込みニューラル ネットワークには、視覚タスクのパターンを読み取る空間表現があります。
スクイーズと励起は、チャネル レベルで明示的にモデル化することにより、チャネルごとの表現をリンクします。
多層パーセプトロンはグローバル表現を学習し、ほとんどのモデルでは、分類前に学習したすべての情報を収集するために、すべての畳み込み層の後の最後でよく使用されます。
モデルのパフォーマンスを向上させるために、チャネル内のグローバル表現を誘導する方法を提案します。
我々は、層間のグローバルなチャネルごとの表現を学習するために、SaEnet (スクイーズ集約励起ネットワーク) を提案します。
提案されたモジュールは、形状を取り戻す前に励起を集約することで、スクイーズ後に重要な情報を渡すことを利用します。
また、ネットワーク内にマルチブランチ線形 (高密度) 層を設けるという新しいアイデアも導入します。
これにより、凝縮された情報からグローバルな表現が学習され、ネットワークの表現力が強化されます。
提案されたモジュールは、Imagenet および CIFAR100 データセットを使用して広範な実験が行われ、密接に関連するアーキテクチャと比較されました。
提案されたモデルが出力する分析結果は同等であり、場合によっては既存の最先端のアーキテクチャよりも優れています。
要約(オリジナル)
Convolutional neural networks have spatial representations which read patterns in the vision tasks. Squeeze and excitation links the channel wise representations by explicitly modeling on channel level. Multi layer perceptrons learn global representations and in most of the models it is used often at the end after all convolutional layers to gather all the information learned before classification. We propose a method of inducing the global representations within channels to have better performance of the model. We propose SaEnet, Squeeze aggregated excitation network, for learning global channelwise representation in between layers. The proposed module takes advantage of passing important information after squeeze by having aggregated excitation before regaining its shape. We also introduce a new idea of having a multibranch linear(dense) layer in the network. This learns global representations from the condensed information which enhances the representational power of the network. The proposed module have undergone extensive experiments by using Imagenet and CIFAR100 datasets and compared with closely related architectures. The analyzes results that proposed models outputs are comparable and in some cases better than existing state of the art architectures.
arxiv情報
著者 | Mahendran N |
発行日 | 2023-08-25 12:30:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google