要約
オープンボキャブラリセグメンテーションは、テキストベースの記述に基づいて、特定の領域やオブジェクトを識別し、セグメンテーションすることを目的としている。一般的なソリューションは、視覚とテキスト情報のギャップを埋めるために、CLIPのような強力な視覚言語モデル(VLM)を活用することである。しかし、VLMは通常、画像レベルの視覚とテキストの位置合わせのために事前学習されており、大域的な意味特徴に焦点を当てている。対照的に、セグメンテーションタスクでは、VLMだけでは提供できない、きめ細かなピクセルレベルのアライメントと詳細なカテゴリー境界情報が必要となる。その結果、VLMから直接抽出された情報は、セグメンテーションタスクの要求を満たすことができない。この限界に対処するため、我々はFGAsegを提案する。FGAsegは、きめ細かなピクセルとテキストのアライメントとカテゴリー境界の補足のために設計されたモデルである。FGAsegの中核はピクセルレベルアライメントモジュールであり、CLIPからの粗視化アライメントを精緻化し、よりきめ細かいピクセル-テキスト意味的アライメントを達成するために、クロスモーダル注意機構とテキスト-ピクセルアライメント損失を採用する。さらに、カテゴリー境界情報を充実させるために、前方伝播中に最適化可能な擬似マスクとしてアライメント行列を導入し、カテゴリー情報補足モジュールを提案する。コサイン類似度と畳み込み類似度から導かれるこれらの擬似マスクは、異なるカテゴリー間の本質的な大域的・局所的境界情報を提供する。これら2つの戦略を組み合わせることで、FGAsegはピクセルレベルのアライメントとカテゴリー境界情報を効果的に強化し、オープンボキャブラリーセグメンテーションにおける重要な課題に対処する。広範な実験により、FGAsegはオープンボキャブラリーセマンティックセグメンテーションベンチマークにおいて、既存の手法を凌駕することが実証された。
要約(オリジナル)
Open-vocabulary segmentation aims to identify and segment specific regions and objects based on text-based descriptions. A common solution is to leverage powerful vision-language models (VLMs), such as CLIP, to bridge the gap between vision and text information. However, VLMs are typically pretrained for image-level vision-text alignment, focusing on global semantic features. In contrast, segmentation tasks require fine-grained pixel-level alignment and detailed category boundary information, which VLMs alone cannot provide. As a result, information extracted directly from VLMs can’t meet the requirements of segmentation tasks. To address this limitation, we propose FGAseg, a model designed for fine-grained pixel-text alignment and category boundary supplementation. The core of FGAseg is a Pixel-Level Alignment module that employs a cross-modal attention mechanism and a text-pixel alignment loss to refine the coarse-grained alignment from CLIP, achieving finer-grained pixel-text semantic alignment. Additionally, to enrich category boundary information, we introduce the alignment matrices as optimizable pseudo-masks during forward propagation and propose Category Information Supplementation module. These pseudo-masks, derived from cosine and convolutional similarity, provide essential global and local boundary information between different categories. By combining these two strategies, FGAseg effectively enhances pixel-level alignment and category boundary information, addressing key challenges in open-vocabulary segmentation. Extensive experiments demonstrate that FGAseg outperforms existing methods on open-vocabulary semantic segmentation benchmarks.
arxiv情報
著者 | Bingyu Li,Da Zhang,Zhiyuan Zhao,Junyu Gao,Xuelong Li |
発行日 | 2025-01-03 12:56:15+00:00 |
arxivサイト | arxiv_id(pdf) |