CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free

要約

CLIP の出現により、オープンワールドの画像認識への道が開かれました。
モデルのゼロショット分類機能は優れていますが、画像セグメンテーションなどの密度の高いタスクに使用するのは困難です。
密度の高い出力を生成するために、いくつかの方法がさまざまな修正と学習スキームを提案しています。
その代わりに、本研究では、CLIP-DIY と呼ばれるオープン語彙セマンティック セグメンテーション手法を提案します。この手法は、追加のトレーニングやアノテーションを必要とせず、代わりに既存の教師なしオブジェクト位置特定アプローチを活用します。
特に、CLIP-DIY は、さまざまなサイズのパッチで CLIP 分類機能を直接活用し、決定を 1 つのマップに集約するマルチスケール アプローチです。
さらに、教師なしオブジェクト位置特定手法を使用して取得された前景/背景スコアを使用してセグメンテーションをガイドします。
私たちの方法では、PASCAL VOC で最先端のゼロショット セマンティック セグメンテーションの結果が得られ、COCO で最高の方法と同等のパフォーマンスを発揮します。

要約(オリジナル)

The emergence of CLIP has opened the way for open-world image perception. The zero-shot classification capabilities of the model are impressive but are harder to use for dense tasks such as image segmentation. Several methods have proposed different modifications and learning schemes to produce dense output. Instead, we propose in this work an open-vocabulary semantic segmentation method, dubbed CLIP-DIY, which does not require any additional training or annotations, but instead leverages existing unsupervised object localization approaches. In particular, CLIP-DIY is a multi-scale approach that directly exploits CLIP classification abilities on patches of different sizes and aggregates the decision in a single map. We further guide the segmentation using foreground/background scores obtained using unsupervised object localization methods. With our method, we obtain state-of-the-art zero-shot semantic segmentation results on PASCAL VOC and perform on par with the best methods on COCO.

arxiv情報

著者 Monika Wysoczańska,Michaël Ramamonjisoa,Tomasz Trzciński,Oriane Siméoni
発行日 2023-09-25 16:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク