Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt

要約

最近、DETR バリアントに触発されて、クエリベースのエンド ツー エンド インスタンス セグメンテーション (QEIS) メソッドが、大規模なデータセットで CNN ベースのモデルよりも優れたパフォーマンスを発揮しました。
しかし、重要なクエリ/カーネルがローカライゼーションを学習して事前確率を形成することが難しいため、少量のトレーニング データしか利用できない場合、有効性が失われます。
この目的のために、この作業は、低データ体制のための新しい教師なし事前トレーニング ソリューションを提供します。
Prompting 手法の最近の成功に着想を得て、クエリ/カーネルに Saliency Prompt を与えることで QEIS モデルを強化する新しい事前トレーニング方法を導入します。
1) 顕著性マスク提案は、顕著性メカニズムに基づいて、ラベルのない画像から疑似マスクを生成する役割を果たします。
2) Prompt-Kernel Matching は、疑似マスクをプロンプトに転送し、対応するローカライゼーションとシェイプを最も一致するカーネルの前に挿入します。
3) 堅牢な学習のためにカーネル レベルで監視を提供するために、カーネル監視が適用されます。
実用的な観点から、私たちの事前トレーニング方法は、QEIS モデルが低データ体制で CNN ベースのモデルと同様の収束速度と同等のパフォーマンスを達成するのに役立ちます。
実験結果は、私たちの方法が3つのデータセットでいくつかのQEISモデルを大幅に後押しすることを示しています。
コードが利用可能になります。

要約(オリジナル)

Recently, inspired by DETR variants, query-based end-to-end instance segmentation (QEIS) methods have outperformed CNN-based models on large-scale datasets. Yet they would lose efficacy when only a small amount of training data is available since it’s hard for the crucial queries/kernels to learn localization and shape priors. To this end, this work offers a novel unsupervised pre-training solution for low-data regimes. Inspired by the recent success of the Prompting technique, we introduce a new pre-training method that boosts QEIS models by giving Saliency Prompt for queries/kernels. Our method contains three parts: 1) Saliency Masks Proposal is responsible for generating pseudo masks from unlabeled images based on the saliency mechanism. 2) Prompt-Kernel Matching transfers pseudo masks into prompts and injects the corresponding localization and shape priors to the best-matched kernels. 3) Kernel Supervision is applied to supply supervision at the kernel level for robust learning. From a practical perspective, our pre-training method helps QEIS models achieve a similar convergence speed and comparable performance with CNN-based models in low-data regimes. Experimental results show that our method significantly boosts several QEIS models on three datasets. Code will be made available.

arxiv情報

著者 Hao Li,Dingwen Zhang,Nian Liu,Lechao Cheng,Yalun Dai,Chao Zhang,Xinggang Wang,Junwei Han
発行日 2023-02-02 15:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク