Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

要約

オープンボキャブラリーセグメンテーションは、オープンなカテゴリーセットからオブジェクトをセグメンテーションし、認識することを必要とする困難なタスクである。この課題に対処する1つの方法は、CLIPのようなマルチモーダルモデルを活用し、画像とテキストの特徴を共有埋め込み空間で提供することで、クローズド語彙認識とオープン語彙認識のギャップを埋めることである。そのため、既存の手法では、この問題に取り組むために2段階のフレームワークを採用することが多く、入力はまずマスクジェネレータを通過し、次に予測されたマスクとともにCLIPモデルを通過する。このプロセスは画像から何度も特徴を抽出することになり、非効率的で非効率的である。これとは対照的に、我々は、共有された凍結畳み込みCLIPバックボーンを用いて、全てをシングルステージのフレームワークに構築することを提案する。これは、現在の2ステージのパイプラインを大幅に簡素化するだけでなく、精度とコストのトレードオフを著しく改善する。提案するFC-CLIPは、次のような利点がある:凍結CLIPバックボーンは、オープン語彙分類の能力を維持し、強力なマスク生成器としても機能する。COCOパノプティックデータのみで学習し、ゼロショットでテストした場合、FC-CLIPはADE20Kで26.8PQ、16.8AP、34.1mIoU、Mapillary Vistasで18.2PQ、27.9mIoU、44.0 PQ、26.8 AP、56.2 mIoU、Cityscapesでは、先行技術をそれぞれ+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasでは+4.0 PQ、Cityscapesでは+20.1 PQ上回った。さらに、FC-CLIPのトレーニングおよびテストにかかる時間は、同じ先行技術と比較して7.5倍および6.6倍と大幅に高速化し、使用するパラメータは5.9倍少なくなりました。また、FC-CLIPは様々なオープンボキャブラリーセマンティックセグメンテーションデータセットにおいて、最先端の性能を達成しました。コード https://github.com/bytedance/fc-clip

要約(オリジナル)

Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip

arxiv情報

著者 Qihang Yu,Ju He,Xueqing Deng,Xiaohui Shen,Liang-Chieh Chen
発行日 2023-08-04 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク