Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation

要約

視覚言語事前トレーニングは、その驚くべきゼロショット認識能力と、言語監視から一般化可能な視覚表現を学習する可能性を実証しました。
一歩進んで、言語教師ありセマンティック セグメンテーションにより、画像とテキストのペアのみからピクセル グループ化を学習することで、テキスト入力の空間的ローカリゼーションが可能になります。
それにもかかわらず、最先端技術には、視覚的モダリティとテキストモダリティの間に明確な意味論的なギャップがあります。画像に表示される多くの視覚的概念が、対になっているキャプションには欠落しています。
このような意味論的な不整合は事前トレーニング中に循環し、テキスト表現で捕捉された視覚的概念が不十分であるため、密な予測におけるゼロショットのパフォーマンスの低下につながります。
このようなセマンティクスのギャップを埋めるために、CLIP を利用して不足しているセマンティクスを補うパイプラインである Concept Curation (CoCu) を提案します。
画像とテキストのペアごとに、私たちが提案するビジョン主導の拡張とテキストからビジョンに基づいたランキングを使用して、潜在的に視覚的に一致するコンセプトを維持するコンセプトアーカイブを確立します。
したがって、関連する概念をクラスター誘導サンプリングによって特定し、事前トレーニングにフィードすることで、視覚的セマンティクスとテキストセマンティクスの間のギャップを埋めることができます。
8 つのセグメンテーション ベンチマークの広範なスイートに対する広範な実験により、CoCu が優れたゼロショット転送パフォーマンスを達成し、言語教師ありセグメンテーション ベースラインを大幅に向上させることが示されており、トレーニング前のデータにおけるセマンティック ギャップを埋める価値があることが示唆されています。

要約(オリジナル)

Vision-Language Pre-training has demonstrated its remarkable zero-shot recognition ability and potential to learn generalizable visual representations from language supervision. Taking a step ahead, language-supervised semantic segmentation enables spatial localization of textual inputs by learning pixel grouping solely from image-text pairs. Nevertheless, the state-of-the-art suffers from clear semantic gaps between visual and textual modality: plenty of visual concepts appeared in images are missing in their paired captions. Such semantic misalignment circulates in pre-training, leading to inferior zero-shot performance in dense predictions due to insufficient visual concepts captured in textual representations. To close such semantic gap, we propose Concept Curation (CoCu), a pipeline that leverages CLIP to compensate for the missing semantics. For each image-text pair, we establish a concept archive that maintains potential visually-matched concepts with our proposed vision-driven expansion and text-to-vision-guided ranking. Relevant concepts can thus be identified via cluster-guided sampling and fed into pre-training, thereby bridging the gap between visual and textual semantics. Extensive experiments over a broad suite of 8 segmentation benchmarks show that CoCu achieves superb zero-shot transfer performance and greatly boosts language-supervised segmentation baseline by a large margin, suggesting the value of bridging semantic gap in pre-training data.

arxiv情報

著者 Yun Xing,Jian Kang,Aoran Xiao,Jiahao Nie,Shao Ling,Shijian Lu
発行日 2023-10-24 11:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク