Exploiting CNNs for Semantic Segmentation with Pascal VOC

要約

【タイトル】Pascal VOCにおけるSemantic Segmentationに対するCNNの利用

【要約】

– Pascal VOCデータセットを用いたSemantic Segmentationに関する包括的な研究を発表する。
– 全てのピクセルにクラスラベルを割り当て、オブジェクト/エンティティを基に画像全体をセグメントする必要がある。
– 全く新しいアプローチを開発する前に、まず最初にFully Convolutional Network(FCN)ベースラインを使用し、精度は71.31%のピクセル精度と0.0527の平均IoUを示した。
– トレーニングパイプラインの改善として、以下の3つの改善を実施し、パフォーマンスを改善する。
– a) コサインアニーリング学習率スケジューラ(ピクセル精度:72.86%、IoU:0.0529)、
– b) データ拡張(ピクセル精度:69.88%、IoU:0.0585)、
– c) クラスの不均衡重み(ピクセル精度:68.98%、IoU:0.0596)。
– トレーニングパイプラインの変更に加えて、以下の3つの異なるアーキテクチャを探索した。
– a)提案されたモデル–Advanced FCN(ピクセル精度:67.20%、IoU:0.0602)
– b)ResNetを使った転移学習(最高のパフォーマンス、ピクセル精度:71.33%、IoU:0.0926)
– c)U-Net(ピクセル精度:72.15%、IoU:0.0649)。
– 改善点がパフォーマンスを大幅に向上させたこと、つまりメトリックとセグメンテーションマップの両方で反映されたことを観察する。
– 興味深いことに、データセットの拡張が最も貢献していることがわかる。
– トレーニングモデルは、損失、精度、IoUプロット、およびセグメンテーションマップを使用して評価した結果、有用な洞察を得ることができた。

要約(オリジナル)

In this paper, we present a comprehensive study on semantic segmentation with the Pascal VOC dataset. Here, we have to label each pixel with a class which in turn segments the entire image based on the objects/entities present. To tackle this, we firstly use a Fully Convolution Network (FCN) baseline which gave 71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and working and subsequently address the issues in the baseline with three improvements: a) cosine annealing learning rate scheduler(pixel accuracy: 72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585) c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from these changes in training pipeline, we also explore three different architectures: a) Our proposed model — Advanced FCN (pixel accuracy: 67.20%, IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649). We observe that the improvements help in greatly improving the performance, as reflected both, in metrics and segmentation maps. Interestingly, we observe that among the improvements, dataset augmentation has the greatest contribution. Also, note that transfer learning model performs the best on the pascal dataset. We analyse the performance of these using loss, accuracy and IoU plots along with segmentation maps, which help us draw valuable insights about the working of the models.

arxiv情報

著者 Sourabh Prakash,Priyanshi Shah,Ashrya Agrawal
発行日 2023-05-05 05:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク