Spectral Analysis for Semantic Segmentation with Applications on Feature Truncation and Weak Annotation




– SSNN(意味論セグメンテーションニューラルネットワーク)は、オブジェクトの境界を解決するために密なセグメンテーションマップを生成しながら、計算コストを軽減するためにダウンサンプリングされたグリッドに対する予測を制限することが知られています。
– U-NetのようなSSNNの正確性とトレーニングコストの間の著しいバランスが存在します。
– 当社は、ダウンサンプルされたグリッドの分解能、損失関数、SSNNの正確性の相関関係を調査するスペクトル解析を提案しています。
– 周波数領域でネットワークのバックプロパゲーションプロセスを分析することにより、従来の損失関数であるクロスエントロピーとCNNの主要な特徴がセグメンテーションラベルの低周波成分に主に影響を受けることを発見しました。
– 当社の発見は、セグメンテーションマップを解決するための効率的な低解像度グリッドの決定(i)、計算コストを節約するために高周波デコーダの特徴を切り詰めること(ii)、ラベル付け時間を節約するためにブロック単位の弱い注釈を使用すること(iii)を含め、いくつかの方法でSSNNに適用できます。
– 本論文で示された実験結果は、DeepLab V3+やDeep Aggregation Net(DAN)などのネットワークに対して当社のスペクトル解析に同意しています。


It is well known that semantic segmentation neural networks (SSNNs) produce dense segmentation maps to resolve the objects’ boundaries while restrict the prediction on down-sampled grids to alleviate the computational cost. A striking balance between the accuracy and the training cost of the SSNNs such as U-Net exists. We propose a spectral analysis to investigate the correlations among the resolution of the down sampled grid, the loss function and the accuracy of the SSNNs. By analyzing the network back-propagation process in frequency domain, we discover that the traditional loss function, cross-entropy, and the key features of CNN are mainly affected by the low-frequency components of segmentation labels. Our discoveries can be applied to SSNNs in several ways including (i) determining an efficient low resolution grid for resolving the segmentation maps (ii) pruning the networks by truncating the high frequency decoder features for saving computation costs, and (iii) using block-wise weak annotation for saving the labeling time. Experimental results shown in this paper agree with our spectral analysis for the networks such as DeepLab V3+ and Deep Aggregation Net (DAN).


著者 Li-Wei Chen,Wei-Chen Chiu,Chin-Tien Wu
発行日 2023-05-11 12:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク