Resolution-Aware Design of Atrous Rates for Semantic Segmentation Networks

要約

DeepLab は、セマンティック セグメンテーションに広く使用されているディープ ニューラル ネットワークであり、その成功は Atrous Spatial Pyramid Pooling (ASPP) と呼ばれる並列アーキテクチャに起因しています。
ASPP は、異なる atrous レートを持つ複数の atrous 畳み込みを使用して、ローカル情報とグローバル情報の両方を抽出します。
ただし、ASPP モジュールでは異常レートの固定値が使用されるため、視野のサイズが制限されます。
原則として、atrous rate は、ターゲット タスクまたはデータセットに応じて視野サイズを変更するためのハイパーパラメータである必要があります。
ただし、異常レートの操作にはガイドラインが適用されません。
この研究は、最適な心拍数を取得するための実践的なガイドラインを提案します。
まず、セマンティックセグメンテーションの有効な受容野を導入して、セグメンテーションネットワークの内部動作を分析します。
私たちは、ASPP モジュールの使用により有効受容野に特定のパターンが生じることを観察し、それを追跡してモジュールの基礎となるメカニズムを明らかにしました。
したがって、入力画像のサイズに基づいて制御されるべき最適なアトラスレートを取得するための実用的なガイドラインを導き出します。
他の値と比較して、最適なアトラス レートを使用すると、STARE、CHASE_DB1、HRF、Cityscapes、iSAID データセットを含む複数のデータセットにわたるセグメンテーション結果が一貫して向上しました。

要約(オリジナル)

DeepLab is a widely used deep neural network for semantic segmentation, whose success is attributed to its parallel architecture called atrous spatial pyramid pooling (ASPP). ASPP uses multiple atrous convolutions with different atrous rates to extract both local and global information. However, fixed values of atrous rates are used for the ASPP module, which restricts the size of its field of view. In principle, atrous rate should be a hyperparameter to change the field of view size according to the target task or dataset. However, the manipulation of atrous rate is not governed by any guidelines. This study proposes practical guidelines for obtaining an optimal atrous rate. First, an effective receptive field for semantic segmentation is introduced to analyze the inner behavior of segmentation networks. We observed that the use of ASPP module yielded a specific pattern in the effective receptive field, which was traced to reveal the module’s underlying mechanism. Accordingly, we derive practical guidelines for obtaining the optimal atrous rate, which should be controlled based on the size of input image. Compared to other values, using the optimal atrous rate consistently improved the segmentation results across multiple datasets, including the STARE, CHASE_DB1, HRF, Cityscapes, and iSAID datasets.

arxiv情報

著者 Bum Jun Kim,Hyeyeon Choi,Hyeonah Jang,Sang Woo Kim
発行日 2023-07-26 13:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク