Self-Guided Open-Vocabulary Semantic Segmentation

要約

視覚言語モデル (VLM) は、オープンボキャブラリーのセグメンテーションなど、オープンエンドの画像理解タスクのための有望なツールとして浮上しています。
しかし、このような VLM をセグメンテーションに直接適用することは簡単ではありません。VLM は画像とテキストのペアでトレーニングされており、当然ながらピクセル レベルの粒度が欠けているためです。
最近の研究では、多くの場合、画像と提供されたテキスト プロンプトが表示される共有画像テキスト空間を活用することで、このギャップを埋めることが進歩しました。
このペーパーでは、VLM の機能にさらに挑戦し、テキスト入力を必要としないオープン語彙セグメンテーションに取り組みます。
この目的を達成するために、私たちは新しい自己誘導型セマンティック セグメンテーション (Self-Seg) フレームワークを提案します。
Self-Seg は、クラスター化された BLIP 埋め込みから関連するクラス名を自動的に検出し、これらを正確なセマンティック セグメンテーションに使用できます。
さらに、予測された公開語彙クラス名を効果的に評価するために、LLM ベースの公開語彙評価器 (LOVE) を提案します。
Pascal VOC、ADE20K、CityScapes では、クラス名を指定せずにオープン語彙セグメンテーションを行うだけでなく、クラス名を指定したメソッドで競合するパフォーマンスを実現する最先端の結果を達成しています。
すべてのコードとデータは公開されます。

要約(オリジナル)

Vision-Language Models (VLMs) have emerged as promising tools for open-ended image understanding tasks, including open vocabulary segmentation. Yet, direct application of such VLMs to segmentation is non-trivial, since VLMs are trained with image-text pairs and naturally lack pixel-level granularity. Recent works have made advancements in bridging this gap, often by leveraging the shared image-text space in which the image and a provided text prompt are represented. In this paper, we challenge the capabilities of VLMs further and tackle open-vocabulary segmentation without the need for any textual input. To this end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework. Self-Seg is capable of automatically detecting relevant class names from clustered BLIP embeddings and using these for accurate semantic segmentation. In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to effectively assess predicted open-vocabulary class names. We achieve state-of-the-art results on Pascal VOC, ADE20K and CityScapes for open-vocabulary segmentation without given class names, as well as competitive performance with methods where class names are given. All code and data will be released.

arxiv情報

著者 Osman Ülger,Maksymilian Kulicki,Yuki Asano,Martin R. Oswald
発行日 2023-12-07 18:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク