A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language Model

要約

最近、ビジョン言語の事前トレーニングによるオープンボキャブラリー画像分類は、そのカテゴリの追加の注釈付き画像を見ることなく、モデルが任意のカテゴリを分類できるという驚くべき成果を実証しました。
しかし、オープン語彙認識をより広い視野の問題でうまく機能させる方法はまだ不明です。
このホワイト ペーパーでは、既製の事前トレーニング済みのビジョン言語モデル、つまり CLIP 上に構築することにより、オープン語彙のセマンティック セグメンテーションを対象としています。
ただし、セマンティック セグメンテーションと CLIP モデルは異なる視覚的粒度で実行され、セマンティック セグメンテーションはピクセルで処理され、CLIP は画像で実行されます。
処理の粒度の不一致を是正するために、一般的な 1 段階の FCN ベースのフレームワークの使用を拒否し、2 段階のセマンティック セグメンテーション フレームワークを提唱します。最初の段階では一般化可能なマスクの提案を抽出し、2 番目の段階では画像ベースの CLIP モデルを活用します。
最初の段階で生成されたマスクされた画像クロップに対してオープン語彙分類を実行します。
私たちの実験結果は、この 2 段階のフレームワークが、COCO スタッフ データセットのみでトレーニングされ、微調整なしで他のデータセットで評価された場合、FCN よりも優れたパフォーマンスを達成できることを示しています。
さらに、この単純なフレームワークは、以前の最先端のゼロ ショット セマンティック セグメンテーションも大幅に上回っています。Pascal VOC 2012 データセットでは +29.5 hIoU、COCO スタッフ データセットでは +8.9 hIoU です。
そのシンプルさと強力なパフォーマンスにより、このフレームワークが将来の研究を促進するためのベースラインとして役立つことを願っています.
コードは ~\url{https://github.com/MendelXu/zsseg.baseline} で公開されています。

要約(オリジナル)

Recently, open-vocabulary image classification by vision language pre-training has demonstrated incredible achievements, that the model can classify arbitrary categories without seeing additional annotated images of that category. However, it is still unclear how to make the open-vocabulary recognition work well on broader vision problems. This paper targets open-vocabulary semantic segmentation by building it on an off-the-shelf pre-trained vision-language model, i.e., CLIP. However, semantic segmentation and the CLIP model perform on different visual granularity, that semantic segmentation processes on pixels while CLIP performs on images. To remedy the discrepancy in processing granularity, we refuse the use of the prevalent one-stage FCN based framework, and advocate a two-stage semantic segmentation framework, with the first stage extracting generalizable mask proposals and the second stage leveraging an image based CLIP model to perform open-vocabulary classification on the masked image crops which are generated in the first stage. Our experimental results show that this two-stage framework can achieve superior performance than FCN when trained only on COCO Stuff dataset and evaluated on other datasets without fine-tuning. Moreover, this simple framework also surpasses previous state-of-the-arts of zero-shot semantic segmentation by a large margin: +29.5 hIoU on the Pascal VOC 2012 dataset, and +8.9 hIoU on the COCO Stuff dataset. With its simplicity and strong performance, we hope this framework to serve as a baseline to facilitate future research. The code are made publicly available at~\url{https://github.com/MendelXu/zsseg.baseline}.

arxiv情報

著者 Mengde Xu,Zheng Zhang,Fangyun Wei,Yutong Lin,Yue Cao,Han Hu,Xiang Bai
発行日 2022-12-29 16:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク