AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation

要約

半教師ありセマンティック セグメンテーション (SSSS) は、大量のラベルなしデータとともに限られたラベル付きデータを活用する、時間のかかるピクセルレベルの手動ラベル付けの負担を軽減するために提案されています。
現在の最先端の手法では、ラベル付きデータをグラウンド トゥルースでトレーニングし、ラベルなしデータを疑似ラベルでトレーニングします。
ただし、2 つのトレーニング フローは別々であるため、ラベル付きデータがトレーニング プロセスを支配することになり、その結果、低品質の疑似ラベルが生成され、その結果、次善の結果が得られます。
この問題を軽減するために、チャネルごとのクロス アテンション メカニズムを使用して、ラベルのない特徴からラベルの付いた特徴を生まれ変わらせる AllSpark を紹介します。
さらに、ラベルのない特徴がラベル付きの特徴を適切に表現することを保証するために、チャネル セマンティック グループ化戦略とともにセマンティック メモリを導入します。
AllSpark は、フレームワーク レベルではなく SSSS のアーキテクチャ レベルの設計に新たな光を当て、ますます複雑になるトレーニング パイプラインの設計を回避します。
また、一般的なトランスベースのセグメンテーション モデルにシームレスに統合できる、柔軟なボトルネック モジュールとみなすこともできます。
提案された AllSpark は、付加機能なしで、Pascal、Cityscapes、COCO ベンチマークのすべての評価プロトコルで既存の手法を上回るパフォーマンスを示します。
コードとモデルの重みは、https://github.com/xmed-lab/AllSpark で入手できます。

要約(オリジナル)

Semi-supervised semantic segmentation (SSSS) has been proposed to alleviate the burden of time-consuming pixel-level manual labeling, which leverages limited labeled data along with larger amounts of unlabeled data. Current state-of-the-art methods train the labeled data with ground truths and unlabeled data with pseudo labels. However, the two training flows are separate, which allows labeled data to dominate the training process, resulting in low-quality pseudo labels and, consequently, sub-optimal results. To alleviate this issue, we present AllSpark, which reborns the labeled features from unlabeled ones with the channel-wise cross-attention mechanism. We further introduce a Semantic Memory along with a Channel Semantic Grouping strategy to ensure that unlabeled features adequately represent labeled features. The AllSpark shed new light on the architecture level designs of SSSS rather than framework level, which avoids increasingly complicated training pipeline designs. It can also be regarded as a flexible bottleneck module that can be seamlessly integrated into a general transformer-based segmentation model. The proposed AllSpark outperforms existing methods across all evaluation protocols on Pascal, Cityscapes and COCO benchmarks without bells-and-whistles. Code and model weights are available at: https://github.com/xmed-lab/AllSpark.

arxiv情報

著者 Haonan Wang,Qixiang Zhang,Yi Li,Xiaomeng Li
発行日 2024-03-14 15:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク