OVeNet: Offset Vector Network for Semantic Segmentation

要約

セマンティック セグメンテーションは、視覚的なシーンを理解するための基本的なタスクです。
私たちは、グラウンドトゥルースのセマンティックアノテーションが利用できる教師あり設定に焦点を当てます。
現実世界のシーンの高い規則性に関する知識に基づいて、隣接するピクセルからの情報を選択的に利用する方法を学習することでクラス予測を改善する方法を提案します。
特に、私たちの方法は、各ピクセルについて、その近傍に前者と同じ予測を共有するシード ピクセルが存在するという事前分布に基づいています。
これに基づいて、オフセット ベクトル ネットワーク (OVeNet) という名前の新しい 2 ヘッド ネットワークを設計します。このネットワークは、標準的な意味予測と、使用される各ピクセルからそれぞれのシード ピクセルまでのオフセットを示す高密度 2D オフセット ベクトル フィールドの両方を生成します。
代替のシードベースのセマンティック予測を計算します。
2 つの予測は、予測されたオフセット ベクトル フィールドの学習された密な信頼マップを使用して、各ピクセルで適応的に融合されます。
シードベースの予測の最適化と信頼マップ上の新しい損失を介してオフセット ベクトルを間接的に監視します。
OVeNet が構築されているベースラインの最先端アーキテクチャである HRNet および HRNet+OCR と比較すると、後者はセマンティック セグメンテーションの 3 つの著名なベンチマーク、つまり Cityscapes、ACDC、ADE20K で大幅なパフォーマンス向上を達成しています。
コードは https://github.com/stamatisalex/OVeNet で入手できます。

要約(オリジナル)

Semantic segmentation is a fundamental task in visual scene understanding. We focus on the supervised setting, where ground-truth semantic annotations are available. Based on knowledge about the high regularity of real-world scenes, we propose a method for improving class predictions by learning to selectively exploit information from neighboring pixels. In particular, our method is based on the prior that for each pixel, there is a seed pixel in its close neighborhood sharing the same prediction with the former. Motivated by this prior, we design a novel two-head network, named Offset Vector Network (OVeNet), which generates both standard semantic predictions and a dense 2D offset vector field indicating the offset from each pixel to the respective seed pixel, which is used to compute an alternative, seed-based semantic prediction. The two predictions are adaptively fused at each pixel using a learnt dense confidence map for the predicted offset vector field. We supervise offset vectors indirectly via optimizing the seed-based prediction and via a novel loss on the confidence map. Compared to the baseline state-of-the-art architectures HRNet and HRNet+OCR on which OVeNet is built, the latter achieves significant performance gains on three prominent benchmarks for semantic segmentation, namely Cityscapes, ACDC and ADE20K. Code is available at https://github.com/stamatisalex/OVeNet

arxiv情報

著者 Stamatis Alexandropoulos,Christos Sakaridis,Petros Maragos
発行日 2023-11-15 16:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク