Unsupervised Universal Image Segmentation

要約

手動で注釈を付けた高密度のセグメンテーション マスクの必要性を排除する、教師なし画像セグメンテーションのアプローチがいくつか提案されています。
現在のモデルは、セマンティック セグメンテーション (STEGO など) またはクラスに依存しないインスタンス セグメンテーション (CutLER など) のいずれかを個別に処理しますが、両方 (つまり、パノプティック セグメンテーション) は処理しません。
我々は、新しい統合フレームワークを使用して、インスタンス、セマンティック、パノプティックなどのさまざまな画像セグメンテーション タスクの実行に熟達した教師なしユニバーサル セグメンテーション モデル (U2Seg) を提案します。
U2Seg は、自己教師ありモデルとそれに続くクラスタリングを利用して、これらのセグメンテーション タスクの擬似セマンティック ラベルを生成します。
各クラスターは、ピクセルの異なるセマンティックおよび/またはインスタンス メンバーシップを表します。
次に、これらの疑似セマンティック ラベルに基づいてモデルを自己トレーニングし、各タスクに合わせた特殊な方法に比べて大幅なパフォーマンス向上をもたらします。COCO および
COCOStuff の教師なしセマンティック セグメンテーションにおける PixelAcc の +7.0 増加 (STEGO と比較)。
さらに、私たちの方法は、これまで調査されていなかった教師なしパノプティックセグメンテーションの新しいベースラインを設定します。
U2Seg は、少数ショット セグメンテーション用の強力な事前トレーニング済みモデルでもあり、低データ領域 (たとえば、わずか 1% COCO ラベル) でトレーニングした場合、CutLER を +5.0 AP$^{\text{mask}}$ 上回ります。
私たちのシンプルかつ効果的な方法が、教師なしの普遍的な画像セグメンテーションに関するさらなる研究を刺激することを願っています。

要約(オリジナル)

Several unsupervised image segmentation approaches have been proposed which eliminate the need for dense manually-annotated segmentation masks; current models separately handle either semantic segmentation (e.g., STEGO) or class-agnostic instance segmentation (e.g., CutLER), but not both (i.e., panoptic segmentation). We propose an Unsupervised Universal Segmentation model (U2Seg) adept at performing various image segmentation tasks — instance, semantic and panoptic — using a novel unified framework. U2Seg generates pseudo semantic labels for these segmentation tasks via leveraging self-supervised models followed by clustering; each cluster represents different semantic and/or instance membership of pixels. We then self-train the model on these pseudo semantic labels, yielding substantial performance gains over specialized methods tailored to each task: a +2.6 AP$^{\text{box}}$ boost vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff. Moreover, our method sets up a new baseline for unsupervised panoptic segmentation, which has not been previously explored. U2Seg is also a strong pretrained model for few-shot segmentation, surpassing CutLER by +5.0 AP$^{\text{mask}}$ when trained on a low-data regime, e.g., only 1% COCO labels. We hope our simple yet effective method can inspire more research on unsupervised universal image segmentation.

arxiv情報

著者 Dantong Niu,Xudong Wang,Xinyang Han,Long Lian,Roei Herzig,Trevor Darrell
発行日 2023-12-28 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク