UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation

要約

半教師ありセマンティック セグメンテーション (SSS) は、ラベルのない安価な画像から豊富な視覚的知識を学習して、セマンティック セグメンテーション機能を強化することを目的としています。
最近の研究の中で、UniMatch は、弱から強への一貫性の正則化の実践を強化することにより、前例を大幅に改善しました。
その後の作品も同様のパイプラインをたどり、さまざまな繊細なデザインを提案します。
達成された進歩にも関わらず、不思議なことに、数多くの強力なビジョン モデルが繁栄しているこの時代においてさえ、ほとんどすべての SSS 作品は依然として、1) 小規模な ImageNet-1K 事前トレーニングを備えた時代遅れの ResNet エンコーダの使用、2) 単純な Pascal での評価に固執しています。
および都市景観データセット。
この研究では、SSS のベースラインを ResNet ベースのエンコーダーから、大規模なデータで事前トレーニングされたより高性能な ViT ベースのエンコーダー (DINOv2 など) に切り替える必要があると主張します。
エンコーダの単純な更新 (使用するパラメータが 2 分の 1 であっても) は、注意深くメソッドを設計するよりも大幅な改善をもたらす可能性があります。
この競争力のあるベースラインに基づいて構築された、アップグレードされ簡素化された UniMatch V2 を紹介します。V1 から弱から強への一貫性という中心的な精神を継承していますが、必要なトレーニング コストが削減され、一貫してより良い結果が得られます。
さらに、Pascal と Cityscapes のパフォーマンスが徐々に飽和しているのを目の当たりにして、ADE20K や COCO データセットなど、複雑な分類法を備えたより挑戦的なベンチマークに焦点を当てる必要があると訴えます。
報告されたすべての値のコード、モデル、ログは、https://github.com/LiheYoung/UniMatch-V2 で入手できます。

要約(オリジナル)

Semi-supervised semantic segmentation (SSS) aims at learning rich visual knowledge from cheap unlabeled images to enhance semantic segmentation capability. Among recent works, UniMatch improves its precedents tremendously by amplifying the practice of weak-to-strong consistency regularization. Subsequent works typically follow similar pipelines and propose various delicate designs. Despite the achieved progress, strangely, even in this flourishing era of numerous powerful vision models, almost all SSS works are still sticking to 1) using outdated ResNet encoders with small-scale ImageNet-1K pre-training, and 2) evaluation on simple Pascal and Cityscapes datasets. In this work, we argue that, it is necessary to switch the baseline of SSS from ResNet-based encoders to more capable ViT-based encoders (e.g., DINOv2) that are pre-trained on massive data. A simple update on the encoder (even using 2x fewer parameters) can bring more significant improvement than careful method designs. Built on this competitive baseline, we present our upgraded and simplified UniMatch V2, inheriting the core spirit of weak-to-strong consistency from V1, but requiring less training cost and providing consistently better results. Additionally, witnessing the gradually saturated performance on Pascal and Cityscapes, we appeal that we should focus on more challenging benchmarks with complex taxonomy, such as ADE20K and COCO datasets. Code, models, and logs of all reported values, are available at https://github.com/LiheYoung/UniMatch-V2.

arxiv情報

著者 Lihe Yang,Zhen Zhao,Hengshuang Zhao
発行日 2024-10-14 17:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク