要約
視覚言語モデル (VLM) は、オープンボキャブラリーのセグメンテーションなど、オープンエンドの画像理解タスクのための有望なツールとして浮上しています。
しかし、このような VLM をセグメンテーションに直接適用することは簡単ではありません。VLM は画像とテキストのペアでトレーニングされており、当然ながらピクセル レベルの粒度が欠けているためです。
最近の研究では、多くの場合、画像と提供されたテキスト プロンプトが表示される共有画像テキスト空間を活用することで、このギャップを埋めることが進歩しました。
このペーパーでは、VLM の機能にさらに挑戦し、テキスト入力を必要としないオープン語彙セグメンテーションに取り組みます。
この目的を達成するために、私たちは新しい自己誘導型セマンティック セグメンテーション (Self-Seg) フレームワークを提案します。
Self-Seg は、クラスター化された BLIP 埋め込みから関連するクラス名を自動的に検出し、これらを正確なセマンティック セグメンテーションに使用できます。
さらに、予測された公開語彙クラス名を効果的に評価するために、LLM ベースの公開語彙評価器 (LOVE) を提案します。
Pascal VOC、ADE20K、CityScapes では、クラス名を指定せずにオープン語彙セグメンテーションを行うだけでなく、クラス名を指定したメソッドで競合するパフォーマンスを実現する最先端の結果を達成しています。
すべてのコードとデータは公開されます。
要約(オリジナル)
Vision-Language Models (VLMs) have emerged as promising tools for open-ended image understanding tasks, including open vocabulary segmentation. Yet, direct application of such VLMs to segmentation is non-trivial, since VLMs are trained with image-text pairs and naturally lack pixel-level granularity. Recent works have made advancements in bridging this gap, often by leveraging the shared image-text space in which the image and a provided text prompt are represented. In this paper, we challenge the capabilities of VLMs further and tackle open-vocabulary segmentation without the need for any textual input. To this end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework. Self-Seg is capable of automatically detecting relevant class names from clustered BLIP embeddings and using these for accurate semantic segmentation. In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to effectively assess predicted open-vocabulary class names. We achieve state-of-the-art results on Pascal VOC, ADE20K and CityScapes for open-vocabulary segmentation without given class names, as well as competitive performance with methods where class names are given. All code and data will be released.
arxiv情報
著者 | Osman Ülger,Maksymilian Kulicki,Yuki Asano,Martin R. Oswald |
発行日 | 2023-12-07 18:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google