Segment Anything without Supervision

要約

Segmentation Anything Model (SAM) では、多大な労力を要するデータのラベル付けが必要です。
私たちは、人間による注釈を必要としない、プロンプトかつ自動で画像全体をセグメンテーションするための教師なし SAM (UnSAM) を紹介します。
UnSAM は分割統治戦略を利用してビジュアル シーンの階層構造を「発見」します。
まず、トップダウンのクラスタリング手法を利用して、ラベルのない画像をインスタンス/セマンティック レベルのセグメントに分割します。
セグメント内のすべてのピクセルに対して、ボトムアップ クラスタリング手法が採用され、それらが繰り返しマージされてより大きなグループになり、階層構造が形成されます。
これらの教師なし多粒度マスクは、モデルのトレーニングを監視するために利用されます。
7 つの一般的なデータセットにわたって評価された UnSAM は、対応する教師あり SAM と競合する結果を達成し、AR の点で教師なしセグメンテーションにおける以前の最先端のセグメンテーションを 11% 上回りました。
さらに、教師あり SAM が自己教師ありラベルからも恩恵を受けることができることを示します。
教師なし擬似マスクを SA-1B のグラウンドトゥルース マスクに統合し、SA-1B のわずか 1% で UnSAM をトレーニングすることにより、軽く半教師あり UnSAM は、多くの場合、教師あり SAM によって見落とされていたエンティティをセグメント化でき、SAM の AR を 6.7% 以上上回り、AP を上回ります。
SA-1B では 3.9% 減少しました。

要約(オリジナル)

The Segmentation Anything Model (SAM) requires labor-intensive data labeling. We present Unsupervised SAM (UnSAM) for promptable and automatic whole-image segmentation that does not require human annotations. UnSAM utilizes a divide-and-conquer strategy to ‘discover’ the hierarchical structure of visual scenes. We first leverage top-down clustering methods to partition an unlabeled image into instance/semantic level segments. For all pixels within a segment, a bottom-up clustering method is employed to iteratively merge them into larger groups, thereby forming a hierarchical structure. These unsupervised multi-granular masks are then utilized to supervise model training. Evaluated across seven popular datasets, UnSAM achieves competitive results with the supervised counterpart SAM, and surpasses the previous state-of-the-art in unsupervised segmentation by 11% in terms of AR. Moreover, we show that supervised SAM can also benefit from our self-supervised labels. By integrating our unsupervised pseudo masks into SA-1B’s ground-truth masks and training UnSAM with only 1% of SA-1B, a lightly semi-supervised UnSAM can often segment entities overlooked by supervised SAM, exceeding SAM’s AR by over 6.7% and AP by 3.9% on SA-1B.

arxiv情報

著者 XuDong Wang,Jingfeng Yang,Trevor Darrell
発行日 2024-06-28 17:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク