Unsupervised Universal Image Segmentation


手動で注釈を付けた高密度のセグメンテーション マスクの必要性を排除する、教師なし画像セグメンテーションのアプローチがいくつか提案されています。
現在のモデルは、セマンティック セグメンテーション (STEGO など) またはクラスに依存しないインスタンス セグメンテーション (CutLER など) のいずれかを個別に処理しますが、両方 (つまり、パノプティック セグメンテーション) は処理しません。
我々は、新しい統合フレームワークを使用して、インスタンス、セマンティック、パノプティックなどのさまざまな画像セグメンテーション タスクの実行に熟達した教師なしユニバーサル セグメンテーション モデル (U2Seg) を提案します。
U2Seg は、自己教師ありモデルとそれに続くクラスタリングを利用して、これらのセグメンテーション タスクの擬似セマンティック ラベルを生成します。
各クラスターは、ピクセルの異なるセマンティックおよび/またはインスタンス メンバーシップを表します。
次に、これらの疑似セマンティック ラベルに基づいてモデルを自己トレーニングし、各タスクに合わせた特殊な方法に比べて大幅なパフォーマンス向上をもたらします。COCO および
COCOStuff の教師なしセマンティック セグメンテーションにおける PixelAcc の +7.0 増加 (STEGO と比較)。
U2Seg は、少数ショット セグメンテーション用の強力な事前トレーニング済みモデルでもあり、低データ領域 (たとえば、わずか 1% COCO ラベル) でトレーニングした場合、CutLER を +5.0 AP$^{\text{mask}}$ 上回ります。


Several unsupervised image segmentation approaches have been proposed which eliminate the need for dense manually-annotated segmentation masks; current models separately handle either semantic segmentation (e.g., STEGO) or class-agnostic instance segmentation (e.g., CutLER), but not both (i.e., panoptic segmentation). We propose an Unsupervised Universal Segmentation model (U2Seg) adept at performing various image segmentation tasks — instance, semantic and panoptic — using a novel unified framework. U2Seg generates pseudo semantic labels for these segmentation tasks via leveraging self-supervised models followed by clustering; each cluster represents different semantic and/or instance membership of pixels. We then self-train the model on these pseudo semantic labels, yielding substantial performance gains over specialized methods tailored to each task: a +2.6 AP$^{\text{box}}$ boost vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff. Moreover, our method sets up a new baseline for unsupervised panoptic segmentation, which has not been previously explored. U2Seg is also a strong pretrained model for few-shot segmentation, surpassing CutLER by +5.0 AP$^{\text{mask}}$ when trained on a low-data regime, e.g., only 1% COCO labels. We hope our simple yet effective method can inspire more research on unsupervised universal image segmentation.


著者 Dantong Niu,Xudong Wang,Xinyang Han,Long Lian,Roei Herzig,Trevor Darrell
発行日 2023-12-28 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク