SASFormer: Transformers for Sparsely Annotated Semantic Segmentation

要約

近年、スパースアノテーションに基づくセマンティックセグメンテーションが進んでいます。
画像内の各オブジェクトの一部のみにラベルを付け、残りの部分にはラベルを付けません。
既存のアプローチのほとんどは時間がかかり、多くの場合、多段階のトレーニング戦略が必要です。
この作業では、SASFormer と呼ばれる segformer に基づく、シンプルかつ効果的なスパース アノテーション付きセマンティック セグメンテーション フレームワークを提案します。
具体的には、フレームワークは最初に階層的なパッチ アテンション マップを生成し、ネットワーク予測を乗算して、有効なラベルで区切られた相関領域を生成します。
さらに、相関結果の特徴とネットワーク予測の間の一貫性を確保するために、アフィニティ損失も導入します。
広範な実験により、提案されたアプローチが既存の方法よりも優れており、最先端のパフォーマンスを達成することが示されています。
ソース コードは、\url{https://github.com/su-hui-zz/SASFormer} で入手できます。

要約(オリジナル)

Semantic segmentation based on sparse annotation has advanced in recent years. It labels only part of each object in the image, leaving the remainder unlabeled. Most of the existing approaches are time-consuming and often necessitate a multi-stage training strategy. In this work, we propose a simple yet effective sparse annotated semantic segmentation framework based on segformer, dubbed SASFormer, that achieves remarkable performance. Specifically, the framework first generates hierarchical patch attention maps, which are then multiplied by the network predictions to produce correlated regions separated by valid labels. Besides, we also introduce the affinity loss to ensure consistency between the features of correlation results and network predictions. Extensive experiments showcase that our proposed approach is superior to existing methods and achieves cutting-edge performance. The source code is available at \url{https://github.com/su-hui-zz/SASFormer}.

arxiv情報

著者 Hui Su,Yue Ye,Wei Hua,Lechao Cheng,Mingli Song
発行日 2022-12-06 16:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク