Exploiting CNNs for Semantic Segmentation with Pascal VOC

要約

【タイトル】Pascal VOCを用いたSemantic SegmentationにおけるCNNの活用

【要約】
– Pascal VOCデータセットを用いたSemantic Segmentationの包括的研究を行っている。
– Semantic Segmentationは、各ピクセルをクラス分類することで、オブジェクト/エンティティに基づいて画像全体をセグメンテーションすることを意味する。
– まず、Fully Convolution Network(FCN)のベースラインを使用し、71.31%のピクセル正確度と0.0527の平均IoUを得た。
– ベースラインの問題を解決するために、3つの改善策を用いた:a)cosine annealing学習レートスケジューラ(ピクセルの正確度:72.86%、IoU:0.0529)、b)データ拡張(ピクセルの正確度:69.88%、IoU:0.0585)c)クラス不均衡重み(ピクセルの正確度:68.98%、IoU:0.0596)。
– これらの教育プロセスの変更に加えて、3つの異なるアーキテクチャを調査している:a)提案されたAdvanced FCN(ピクセルの正確度:67.20%、IoU:0.0602)b)ResNetを用いた転移学習(最高のパフォーマンス)(ピクセルの正確度:71.33%、IoU:0.0926)c)U-Net(ピクセルの正確度:72.15%、IoU:0.0649)。
– 改善の効果により、指標とセグメンテーション・マップの両方に反映されるパフォーマンスが大幅に向上することを観察する。
– 興味深いことに、改良策の中で、データセットの拡張が最も貢献していることがわかります。また、転移学習モデルがPascalデータセットで最も優れたパフォーマンスを発揮することに注意してください。
– これらのモデルの動作に関する損失、精度、IoUプロットとセグメンテーション・マップを使用して、パフォーマンスを分析して貴重な洞察を得る。

要約(オリジナル)

In this paper, we present a comprehensive study on semantic segmentation with the Pascal VOC dataset. Here, we have to label each pixel with a class which in turn segments the entire image based on the objects/entities present. To tackle this, we firstly use a Fully Convolution Network (FCN) baseline which gave 71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and working and subsequently address the issues in the baseline with three improvements: a) cosine annealing learning rate scheduler(pixel accuracy: 72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585) c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from these changes in training pipeline, we also explore three different architectures: a) Our proposed model — Advanced FCN (pixel accuracy: 67.20%, IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649). We observe that the improvements help in greatly improving the performance, as reflected both, in metrics and segmentation maps. Interestingly, we observe that among the improvements, dataset augmentation has the greatest contribution. Also, note that transfer learning model performs the best on the pascal dataset. We analyse the performance of these using loss, accuracy and IoU plots along with segmentation maps, which help us draw valuable insights about the working of the models.

arxiv情報

著者 Sourabh Prakash,Priyanshi Shah,Ashrya Agrawal
発行日 2023-04-26 00:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク