要約
最近、ConvNets を使用して、空間次元とチャネル次元の両方で注意メカニズムが調査されました。
ただし、私たちの知る限り、既存のすべての方法は注意モジュールを使用して、ユニスケールからローカルの相互作用をキャプチャします。
このホワイトペーパーでは、グローバルコンテキストをモデル化するために、さまざまなレイヤーにわたるチャネルごとの関係をキャプチャする、以前の知識チャネルアテンションモジュール (PKCAM) を提案します。
私たちが提案したモジュール PKCAM は、任意のフィードフォワード CNN アーキテクチャに簡単に統合でき、その軽量な特性によりフットプリントがごくわずかで、エンドツーエンドの方法でトレーニングされます。
さまざまなバックボーンを使用した画像分類とオブジェクト検出タスクに関する広範な実験を通じて、新しいアーキテクチャを検証します。
私たちの実験では、対応するものに対してパフォーマンスが一貫して改善されていることが示されています。
コードは https://github.com/eslambakr/EMCA で公開されています。
要約(オリジナル)
Recently, attention mechanisms have been explored with ConvNets, both across the spatial and channel dimensions. However, from our knowledge, all the existing methods devote the attention modules to capture local interactions from a uni-scale. In this paper, we propose a Previous Knowledge Channel Attention Module(PKCAM), that captures channel-wise relations across different layers to model the global context. Our proposed module PKCAM is easily integrated into any feed-forward CNN architectures and trained in an end-to-end fashion with a negligible footprint due to its lightweight property. We validate our novel architecture through extensive experiments on image classification and object detection tasks with different backbones. Our experiments show consistent improvements in performances against their counterparts. Our code is published at https://github.com/eslambakr/EMCA.
arxiv情報
著者 | Eslam Mohamed Bakar,Ahmad El Sallab,Mohsen A. Rashwan |
発行日 | 2022-11-14 16:49:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google