Positive-Negative Equal Contrastive Loss for Semantic Segmentation

要約

文脈情報は様々なコンピュータビジョンタスクにとって重要であり、これまでの研究では、グローバルな文脈を効果的に抽出・集約するために、プラグアンドプレイモジュールや構造損失を設計することが一般的であった。これらの手法は、モデルを最適化するためにファインラベルを利用するが、ファインに学習された特徴は貴重な学習リソースでもあり、ハードピクセル(すなわち、誤判別ピクセル)に好ましい分布をもたらす可能性があることを無視している。そこで,教師なし学習における対比学習にヒントを得て,教師あり学習における対比損失を適用し,教師なし学習における固定観念(例えば,ポジとネガのアンバランス,アンカー計算の混乱)を払拭するよう損失関数を再設計する.そこで、我々は、正負の埋め込みがアンカーに与える潜在的な影響を増大させ、正と負のサンプルペアを等しく扱う正負等対比損失(PNE loss)を提案する。PNE損失は既存のセマンティックセグメンテーションの枠組みに直接組み込むことができ、無視できるほどの余分な計算コストで優れた性能を発揮する。我々は、多くの古典的なセグメンテーション手法(例:DeepLabV3、OCRNet、UperNet)とバックボーン(例:ResNet、HRNet、Swin Transformer)を利用して包括的な実験を行い、二つのベンチマークデータセット(例:CityscapesとCOCO-Stuff)において最先端の性能を達成する。我々のコードは近日中に公開予定です。

要約(オリジナル)

The contextual information is critical for various computer vision tasks, previous works commonly design plug-and-play modules and structural losses to effectively extract and aggregate the global context. These methods utilize fine-label to optimize the model but ignore that fine-trained features are also precious training resources, which can introduce preferable distribution to hard pixels (i.e., misclassified pixels). Inspired by contrastive learning in unsupervised paradigm, we apply the contrastive loss in a supervised manner and re-design the loss function to cast off the stereotype of unsupervised learning (e.g., imbalance of positives and negatives, confusion of anchors computing). To this end, we propose Positive-Negative Equal contrastive loss (PNE loss), which increases the latent impact of positive embedding on the anchor and treats the positive as well as negative sample pairs equally. The PNE loss can be directly plugged right into existing semantic segmentation frameworks and leads to excellent performance with neglectable extra computational costs. We utilize a number of classic segmentation methods (e.g., DeepLabV3, OCRNet, UperNet) and backbone (e.g., ResNet, HRNet, Swin Transformer) to conduct comprehensive experiments and achieve state-of-the-art performance on two benchmark datasets (e.g., Cityscapes and COCO-Stuff). Our code will be publicly available soon.

arxiv情報

著者 Jing Wang,Lingfei Xuan,Wenxuan Wang,Tianxiang Zhang,Jiangyun Li
発行日 2022-07-05 03:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク