Frequency-Adaptive Dilated Convolution for Semantic Segmentation

要約

連続した要素間にギャップを挿入することで受容野を拡張する拡張畳み込みは、コンピューター ビジョンで広く採用されています。
この研究では、スペクトル解析の観点から拡張畳み込みの個々のフェーズを改善する 3 つの戦略を提案します。
グローバル拡張率をハイパーパラメータとして固定する従来の手法から離れて、ローカル周波数成分に基づいて拡張率を空間的に動的に調整する周波数適応拡張畳み込み (FADC) を導入します。
その後、有効帯域幅と受容野サイズを直接強化する 2 つのプラグイン モジュールを設計しました。
アダプティブ カーネル (AdaKern) モジュールは、畳み込みの重みを低周波成分と高周波成分に分解し、これらの成分間の比率をチャネルごとに動的に調整します。
畳み込み重みの高周波部分を増やすことにより、AdaKern はより多くの高周波成分をキャプチャし、それによって実効帯域幅が向上します。
周波数選択 (FreqSelect) モジュールは、空間的バリアントの再重み付けを通じて、フィーチャ表現内の高周波成分と低周波成分のバランスを最適に調整します。
バックグラウンドの高周波を抑制して、FADC がより大きな拡張を学習するように促し、それによって拡張された範囲の受容野を増加させます。
セグメンテーションとオブジェクト検出に関する広範な実験により、私たちのアプローチの有効性が一貫して検証されています。
コードは \url{https://github.com/Linwei-Chen/FADC} で公開されています。

要約(オリジナル)

Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at \url{https://github.com/Linwei-Chen/FADC}.

arxiv情報

著者 Linwei Chen,Lin Gu,Ying Fu
発行日 2024-03-08 15:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク