CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

要約

オープンボキャブラリーのセマンティック セグメンテーションでは、広範囲のテキスト記述に基づいて画像内の各ピクセルにラベルを付けるという課題が生じます。
この研究では、視覚言語基盤モデル、特に CLIP をセマンティック セグメンテーションの複雑なタスクに適応させるための新しいコストベースのアプローチを紹介します。
コサイン類似度スコア、つまり画像とテキストの埋め込み間のコスト量を集計することで、私たちのメソッドは、エンコーダーを微調整することで、目に見えないクラスをセグメント化するために CLIP を強力に適応させ、目に見えないクラスを処理する際に既存のメソッドが直面する課題に対処します。
これに基づいて、画像とテキストの埋め込み間で確立されるマルチモーダルな性質を考慮して、コスト量を効果的に集約する方法を検討します。
さらに、CLIP を効率的に微調整するためのさまざまな方法を検討します。

要約(オリジナル)

Open-vocabulary semantic segmentation presents the challenge of labeling each pixel within an image based on a wide range of text descriptions. In this work, we introduce a novel cost-based approach to adapt vision-language foundation models, notably CLIP, for the intricate task of semantic segmentation. Through aggregating the cosine similarity score, i.e., the cost volume between image and text embeddings, our method potently adapts CLIP for segmenting seen and unseen classes by fine-tuning its encoders, addressing the challenges faced by existing methods in handling unseen classes. Building upon this, we explore methods to effectively aggregate the cost volume considering its multi-modal nature of being established between image and text embeddings. Furthermore, we examine various methods for efficiently fine-tuning CLIP.

arxiv情報

著者 Seokju Cho,Heeseong Shin,Sunghwan Hong,Anurag Arnab,Paul Hongsuck Seo,Seungryong Kim
発行日 2024-03-31 11:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク