要約
効果的なチャネル アテンション メカニズムを設計するには、最適な特徴表現を可能にする非可逆圧縮方法を見つけることが求められます。
この分野では最近の進歩にもかかわらず、依然として未解決の問題が残っています。
現在の最先端のチャネル アテンション メカニズムである FcaNet は、離散コサイン変換 (DCT) を使用して、このような情報豊富な圧縮を見つけようとしました。
FcaNet の欠点の 1 つは、DCT 周波数を自然に選択できないことです。
この問題を回避するために、FcaNet は ImageNet で実験を行い、最適な周波数を見つけました。
私たちは、周波数の選択は補助的な役割を果たすだけであり、アテンション フィルターの有効性の主な原動力は DCT カーネルの直交性であると仮説を立てます。
この仮説を検証するために、ランダムに初期化された直交フィルターを使用して注意メカニズムを構築します。
このメカニズムを ResNet に統合して、OrthoNet を作成します。
OrthoNet を Birds、MS-COCO、Places356 上の FcaNet (およびその他のアテンション メカニズム) と比較し、優れたパフォーマンスを示しました。
ImageNet データセットでは、私たちの手法は現在の最先端のものと競合するか、それを上回っています。
私たちの結果は、フィルターの最適な選択はとらえどころがなく、十分に多数の直交フィルターを使用すれば一般化が達成できることを示唆しています。
さらに、ネットワーク内での位置やチャネル グループなど、チャネル アテンションを実装するための他の一般原則を調査します。
私たちのコードは https://github.com/hady1011/OrthoNets/ で公開されています。
要約(オリジナル)
Designing an effective channel attention mechanism implores one to find a lossy-compression method allowing for optimal feature representation. Despite recent progress in the area, it remains an open problem. FcaNet, the current state-of-the-art channel attention mechanism, attempted to find such an information-rich compression using Discrete Cosine Transforms (DCTs). One drawback of FcaNet is that there is no natural choice of the DCT frequencies. To circumvent this issue, FcaNet experimented on ImageNet to find optimal frequencies. We hypothesize that the choice of frequency plays only a supporting role and the primary driving force for the effectiveness of their attention filters is the orthogonality of the DCT kernels. To test this hypothesis, we construct an attention mechanism using randomly initialized orthogonal filters. Integrating this mechanism into ResNet, we create OrthoNet. We compare OrthoNet to FcaNet (and other attention mechanisms) on Birds, MS-COCO, and Places356 and show superior performance. On the ImageNet dataset, our method competes with or surpasses the current state-of-the-art. Our results imply that an optimal choice of filter is elusive and generalization can be achieved with a sufficiently large number of orthogonal filters. We further investigate other general principles for implementing channel attention, such as its position in the network and channel groupings. Our code is publicly available at https://github.com/hady1011/OrthoNets/
arxiv情報
著者 | Hadi Salman,Caleb Parks,Matthew Swan,John Gauch |
発行日 | 2023-11-07 02:23:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google