OrthoNets: Orthogonal Channel Attention Networks

要約

効果的なチャンネルアテンションメカニズムを設計するには、最適な特徴表現を可能にする非可逆圧縮方法を見つける必要がある。この分野での最近の進歩にもかかわらず、この問題は未解決のままである。現在の最先端のチャンネル・アテンションメカニズムであるFcaNetは、離散コサイン変換(DCT)を使ってそのような情報量の多い圧縮を見つけようとした。FcaNetの欠点の一つは、DCT周波数の自然な選択がないことである。この問題を回避するため、FcaNetはImageNet上で実験し、最適な周波数を見つけた。我々は、周波数の選択は補助的な役割に過ぎず、FcaNetのアテンション・フィルタの有効性の主な原動力はDCTカーネルの直交性であると仮定する。この仮説を検証するために、ランダムに初期化された直交フィルタを用いた注意メカニズムを構築する。このメカニズムをResNetに組み込み、OrthoNetを作成する。Birds、MS-COCO、Places356において、OrthoNetをFcaNet(および他の注意メカニズム)と比較し、優れた性能を示す。ImageNetデータセットでは、我々の手法は現在の最先端技術と競合するか、それを上回る。我々の結果は、フィルタの最適な選択はとらえどころがなく、十分な数の直交フィルタで汎化が達成できることを示唆している。我々はさらに、ネットワーク内の位置やチャネルのグループ化など、チャネルの注意を実装するための他の一般的な原理を調査する。

要約(オリジナル)

Designing an effective channel attention mechanism implores one to find a lossy-compression method allowing for optimal feature representation. Despite recent progress in the area, it remains an open problem. FcaNet, the current state-of-the-art channel attention mechanism, attempted to find such an information-rich compression using Discrete Cosine Transforms (DCTs). One drawback of FcaNet is that there is no natural choice of the DCT frequencies. To circumvent this issue, FcaNet experimented on ImageNet to find optimal frequencies. We hypothesize that the choice of frequency plays only a supporting role and the primary driving force for the effectiveness of their attention filters is the orthogonality of the DCT kernels. To test this hypothesis, we construct an attention mechanism using randomly initialized orthogonal filters. Integrating this mechanism into ResNet, we create OrthoNet. We compare OrthoNet to FcaNet (and other attention mechanisms) on Birds, MS-COCO, and Places356 and show superior performance. On the ImageNet dataset, our method competes with or surpasses the current state-of-the-art. Our results imply that an optimal choice of filter is elusive and generalization can be achieved with a sufficiently large number of orthogonal filters. We further investigate other general principles for implementing channel attention, such as its position in the network and channel groupings.

arxiv情報

著者 Hadi Salman,Caleb Parks,Matthew Swan,John Gauch
発行日 2023-11-06 12:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク