Efficient Multi-Scale Attention Module with Cross-Spatial Learning

要約

より識別可能な特徴表現を生成するためのチャネルまたは空間注意メカニズムの顕著な有効性は、さまざまなコンピューター ビジョン タスクで実証されています。
ただし、チャネルの次元を削減してクロスチャネル関係をモデル化すると、深い視覚的表現を抽出する際に副作用が生じる可能性があります。
この論文では、新しい効率的なマルチスケール アテンション (EMA) モジュールを提案します。
チャネルごとの情報を保持し、計算オーバーヘッドを削減することに重点を置き、部分的なチャネルをバッチ ディメンションに再形成し、チャネル ディメンションを複数のサブ特徴にグループ化して、空間意味論的特徴が各特徴グループ内に適切に分散されるようにします。
具体的には、グローバル情報をエンコードして各並列ブランチのチャネルごとの重みを再調整することとは別に、2 つの並列ブランチの出力特徴は、ピクセルレベルのペアごとの関係をキャプチャするための次元間相互作用によってさらに集約されます。
当社では、パフォーマンスを評価するために、一般的なベンチマーク (CIFAR-100、ImageNet-1k、MS COCO、VisDrone2019 など) を使用して、画像分類および物体検出タスクに関する広範なアブレーション研究と実験を実施しています。

要約(オリジナル)

Remarkable effectiveness of the channel or spatial attention mechanisms for producing more discernible feature representation are illustrated in various computer vision tasks. However, modeling the cross-channel relationships with channel dimensionality reduction may bring side effect in extracting deep visual representations. In this paper, a novel efficient multi-scale attention (EMA) module is proposed. Focusing on retaining the information on per channel and decreasing the computational overhead, we reshape the partly channels into the batch dimensions and group the channel dimensions into multiple sub-features which make the spatial semantic features well-distributed inside each feature group. Specifically, apart from encoding the global information to re-calibrate the channel-wise weight in each parallel branch, the output features of the two parallel branches are further aggregated by a cross-dimension interaction for capturing pixel-level pairwise relationship. We conduct extensive ablation studies and experiments on image classification and object detection tasks with popular benchmarks (e.g., CIFAR-100, ImageNet-1k, MS COCO and VisDrone2019) for evaluating its performance.

arxiv情報

著者 Daliang Ouyang,Su He,Guozhong Zhang,Mingzhu Luo,Huaiyong Guo,Jian Zhan,Zhijie Huang
発行日 2023-06-06 10:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク