ReCo: Retrieve and Co-segment for Zero-shot Transfer

要約

セマンティックセグメンテーションには幅広いアプリケーションがありますが、実際の影響は、展開を可能にするために必要な法外な注釈コストによって大幅に制限されています。
監視を放棄するセグメンテーション方法は、これらのコストを回避できますが、概念名を予測に割り当てるために、ターゲット分布からラベル付きの例を提供するという不便な要件を示します。
言語画像の事前トレーニングにおける代替の作業ラインは、最近、概念の大きな語彙全体に名前を割り当て、分類のためのゼロショット転送を可能にするモデルを作成する可能性を示しましたが、それに見合ったセグメンテーション能力を示していません。
この作業では、これら2つのアプローチの長所を組み合わせた統合を実現するよう努めています。
そのような言語画像の事前トレーニングモデルの1つであるCLIPの検索機能を活用して、ラベルのない画像から概念名の任意のコレクションのトレーニングセットを動的にキュレートし、最新の画像表現によって提供される堅牢な対応を活用して、
結果のコレクション。
次に、合成セグメントコレクションを使用して、CLIPのスケーラブルな事前トレーニングプロセスから概念の知識が継承されるセグメンテーションモデル(ピクセルラベルを必要としない)を構築します。
取得とコセグメント(ReCo)と呼ばれる私たちのアプローチは、名前付き予測とゼロショット転送の利便性を継承しながら、教師なしセグメンテーションアプローチよりも優れたパフォーマンスを発揮することを示しています。
また、非常にまれなオブジェクトのスペシャリストセグメンターを生成するReCoの機能も示します。

要約(オリジナル)

Semantic segmentation has a broad range of applications, but its real-world impact has been significantly limited by the prohibitive annotation costs necessary to enable deployment. Segmentation methods that forgo supervision can side-step these costs, but exhibit the inconvenient requirement to provide labelled examples from the target distribution to assign concept names to predictions. An alternative line of work in language-image pre-training has recently demonstrated the potential to produce models that can both assign names across large vocabularies of concepts and enable zero-shot transfer for classification, but do not demonstrate commensurate segmentation abilities. In this work, we strive to achieve a synthesis of these two approaches that combines their strengths. We leverage the retrieval abilities of one such language-image pre-trained model, CLIP, to dynamically curate training sets from unlabelled images for arbitrary collections of concept names, and leverage the robust correspondences offered by modern image representations to co-segment entities among the resulting collections. The synthetic segment collections are then employed to construct a segmentation model (without requiring pixel labels) whose knowledge of concepts is inherited from the scalable pre-training process of CLIP. We demonstrate that our approach, termed Retrieve and Co-segment (ReCo) performs favourably to unsupervised segmentation approaches while inheriting the convenience of nameable predictions and zero-shot transfer. We also demonstrate ReCo’s ability to generate specialist segmenters for extremely rare objects.

arxiv情報

著者 Gyungin Shin,Weidi Xie,Samuel Albanie
発行日 2022-06-14 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク