要約
教師なしインスタンスのセグメンテーションは、人間がラベル付けしたデータに依存せずに、画像内の個別のオブジェクト インスタンスをセグメント化することを目的としています。
この分野は最近、自己教師ありモデル (DINO など) からの豊富な視覚的特徴表現によってもたらされる強力なローカル対応関係のおかげで、大幅な進歩を遂げています。
最近の最先端のアプローチでは、自己教師あり特徴を使用して画像をグラフとして表現し、一般化固有値システム (つまり、正規化カット) を解いて前景マスクを生成します。
この戦略は効果的ではありますが、それに伴う計算需要によって制限があり、推論速度が遅くなります。
このペーパーでは、自己監視型の視覚機能を活用してパッチの初期グループを取得し、高度な背景ベースのマスク プルーニング技術を利用してこれらのセグメントに戦略的なマージを適用するプロンプト アンド マージ (ProMerge) を提案します。
ProMerge は、競争力のある結果をもたらすだけでなく、最先端の正規化カットベースのアプローチと比較して推論時間を大幅に短縮します。
さらに、マスク予測を擬似ラベルとして使用してオブジェクト検出器をトレーニングすると、結果として得られる検出器は、さまざまな困難なインスタンス セグメンテーション ベンチマークにおいて、現在の主要な教師なしモデルを上回ります。
要約(オリジナル)
Unsupervised instance segmentation aims to segment distinct object instances in an image without relying on human-labeled data. This field has recently seen significant advancements, partly due to the strong local correspondences afforded by rich visual feature representations from self-supervised models (e.g., DINO). Recent state-of-the-art approaches use self-supervised features to represent images as graphs and solve a generalized eigenvalue system (i.e., normalized-cut) to generate foreground masks. While effective, this strategy is limited by its attendant computational demands, leading to slow inference speeds. In this paper, we propose Prompt and Merge (ProMerge), which leverages self-supervised visual features to obtain initial groupings of patches and applies a strategic merging to these segments, aided by a sophisticated background-based mask pruning technique. ProMerge not only yields competitive results but also offers a significant reduction in inference time compared to state-of-the-art normalized-cut-based approaches. Furthermore, when training an object detector using our mask predictions as pseudo-labels, the resulting detector surpasses the current leading unsupervised model on various challenging instance segmentation benchmarks.
arxiv情報
著者 | Dylan Li,Gyungin Shin |
発行日 | 2024-09-27 17:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google