WaveNets: Wavelet Channel Attention Networks

要約

チャネル アテンションは、コンピュータ ビジョンの分野で効果的な手法として最高の地位を占めています。
ただし、SENet によって提案されたチャネル アテンションは、チャネルをスカラーとして表現するための Global Average Pooling (GAP) の使用によって引き起こされる特徴学習における情報損失に悩まされます。
したがって、効果的なチャネル アテンション メカニズムを設計するには、チャネルの相互依存関係をモデル化する際の機能の保存を強化するソリューションを見つける必要があります。
この研究では、チャネル表現の問題の解決策としてウェーブレット変換圧縮を利用します。
まず、従来のチャネル アテンション モジュールを備えた Auto-Encoder モデルとしてウェーブレット変換をテストします。
次に、スタンドアロンのチャネル圧縮方法としてウェーブレット変換をテストします。
大域的平均プーリングが再帰的近似ハール ウェーブレット変換と同等であることを証明します。
この証明により、ウェーブレット圧縮を使用してチャネル アテンションを一般化し、それを WaveNet と名付けます。
私たちのメソッドの実装は、数行のコードを使用して既存のチャネル アテンション メソッド内に埋め込むことができます。
画像分類タスクに ImageNet データセットを使用して、提案された方法をテストします。
私たちの方法はベースライン SENet を上回り、最先端の結果を達成します。
私たちのコード実装は https://github.com/hady1011/WaveNet-C で公開されています。

要約(オリジナル)

Channel Attention reigns supreme as an effective technique in the field of computer vision. However, the proposed channel attention by SENet suffers from information loss in feature learning caused by the use of Global Average Pooling (GAP) to represent channels as scalars. Thus, designing effective channel attention mechanisms requires finding a solution to enhance features preservation in modeling channel inter-dependencies. In this work, we utilize Wavelet transform compression as a solution to the channel representation problem. We first test wavelet transform as an Auto-Encoder model equipped with conventional channel attention module. Next, we test wavelet transform as a standalone channel compression method. We prove that global average pooling is equivalent to the recursive approximate Haar wavelet transform. With this proof, we generalize channel attention using Wavelet compression and name it WaveNet. Implementation of our method can be embedded within existing channel attention methods with a couple of lines of code. We test our proposed method using ImageNet dataset for image classification task. Our method outperforms the baseline SENet, and achieves the state-of-the-art results. Our code implementation is publicly available at https://github.com/hady1011/WaveNet-C.

arxiv情報

著者 Hadi Salman,Caleb Parks,Shi Yin Hong,Justin Zhan
発行日 2024-03-12 15:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク