NamedMask: Distilling Segmenters from Complementary Foundation Models

要約

この作業の目標は、トレーニング中にピクセルレベルのラベルにアクセスせずに、画像の領域をセグメント化して名前を付けることです。
このタスクに取り組むために、2 つの基盤モデルの補完的な長所を抽出してセグメンターを構築します。
最初の CLIP (Radford et al. 2021) は、画像コンテンツに名前を割り当てる機能を示しますが、オブジェクト構造のアクセス可能な表現を欠いています。
2 番目の DINO (Caron et al. 2021) は、オブジェクトの空間範囲をキャプチャしますが、オブジェクト名の知識はありません。
NamedMask と呼ばれる私たちの方法は、CLIP を使用して画像のカテゴリ固有のアーカイブを構築することから始まります。
これらの画像は、DINO からブートストラップされたカテゴリに依存しない顕著なオブジェクト検出器で疑似ラベルが付けられ、CLIP アーカイブ ラベルを使用してカテゴリ固有のセグメンタによって洗練されます。
洗練されたマスクの高品質のおかげで、適切なデータ拡張を使用してこれらのアーカイブでトレーニングされた標準的なセグメンテーション アーキテクチャが、単一オブジェクト画像と複数オブジェクト画像の両方に対して印象的なセマンティック セグメンテーション機能を実現することを示します。
その結果、私たちが提案した NamedMask は、VOC2012、COCO、および大規模な ImageNet-S データセットを含む 5 つのベンチマークに関するさまざまな以前の作業に対して有利に機能します。

要約(オリジナル)

The goal of this work is to segment and name regions of images without access to pixel-level labels during training. To tackle this task, we construct segmenters by distilling the complementary strengths of two foundation models. The first, CLIP (Radford et al. 2021), exhibits the ability to assign names to image content but lacks an accessible representation of object structure. The second, DINO (Caron et al. 2021), captures the spatial extent of objects but has no knowledge of object names. Our method, termed NamedMask, begins by using CLIP to construct category-specific archives of images. These images are pseudo-labelled with a category-agnostic salient object detector bootstrapped from DINO, then refined by category-specific segmenters using the CLIP archive labels. Thanks to the high quality of the refined masks, we show that a standard segmentation architecture trained on these archives with appropriate data augmentation achieves impressive semantic segmentation abilities for both single-object and multi-object images. As a result, our proposed NamedMask performs favourably against a range of prior work on five benchmarks including the VOC2012, COCO and large-scale ImageNet-S datasets.

arxiv情報

著者 Gyungin Shin,Weidi Xie,Samuel Albanie
発行日 2022-09-22 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク