Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision

要約

現在の最先端のオープン語彙セグメンテーション手法は、通常、監視のために画像、マスク、テキストの 3 つ組の注釈に依存しています。
ただし、このような詳細な注釈の取得には多大な労力がかかり、複雑な現実世界のシナリオではスケーラビリティの課題が生じます。
既存の弱監視アプローチでは、画像とテキストのペアを利用して拡張的なアノテーションのコストを削減していますが、マスク監視がないため、モデルが複数のインスタンスを見つけて、同様のセマンティクスを持つピクセルを正確にグループ化することが困難になり、汎用性とパフォーマンスが大幅に妨げられます。
この論文では、Unpair-Seg を紹介します。Unpair-Seg は、独立して効率的に収集できる、ペアになっていない画像マスクと画像テキストのペアから学習する、新しい弱く教師ありのオープン語彙セグメンテーション フレームワークです。
Unpair-Seg は、最初にバイナリ マスクのセットを予測し、マスクとテキスト エンティティの信頼できるペアを識別することによって疑似ラベルを生成します。
次に、これらの疑似ラベルに基づいて領域の埋め込みとテキストの埋め込みを調整する機能アダプターをトレーニングし、オープン語彙のセグメンテーションを実現します。
ただし、マスクとエンティティの対応に固有のノイズがあるため、信頼できるペアを取得することが困難になります。
これに対処するために、ビジョン言語の大規模モデルを使用して入力画像を再キャプションし、正確なエンティティを抽出し、ノイズの多いマスクとエンティティのペアを削減するマルチスケール マッチング戦略を設計します。
当社の Unpair-Seg フレームワークは、ADE-847 および PASCAL Context-459 データセットで 14.6\% および 19.5\% の mIoU を達成するという優れたパフォーマンスを示し、完全に教師ありの手法と弱教師ありの手法の間のギャップを大幅に狭めています。

要約(オリジナル)

Current state-of-the-art open-vocabulary segmentation methods typically rely on image-mask-text triplet annotations for supervision. However, acquiring such detailed annotations is labour-intensive and poses scalability challenges in complex real-world scenarios. While existing weakly-supervised approaches leverage image-text pairs to reduce the expansive annotation cost, the lack of mask supervision makes it difficult for the model to locate multiple instances and accurately group pixels with similar semantics, significantly hampering versatility and performance. In this paper, we introduce Unpair-Seg, a novel weakly-supervised open-vocabulary segmentation framework that learns from unpaired image-mask and image-text pairs, which can be independently and efficiently collected. Unpair-Seg initially predicts a set of binary masks and generates pseudo labels by identifying confident pairs of masks and text entities. We then train a feature adapter to align region embeddings with text embeddings based on these pseudo labels, achieving open-vocabulary segmentation. However, the inherent noise in the mask-entity correspondence poses a challenge to obtaining reliable pairs. To address this, we employ a vision-language large model to re-caption the input images and extract precise entities, and we design a multi-scale matching strategy to reduce noisy mask-entity pairs. Our Unpair-Seg framework demonstrates impressive performance, achieving 14.6\% and 19.5\% mIoU on the ADE-847 and PASCAL Context-459 datasets, significantly narrowing the gap between fully-supervised and weakly-supervised methods.

arxiv情報

著者 Zhaoqing Wang,Xiaobo Xia,Ziye Chen,Xiao He,Yandong Guo,Mingming Gong,Tongliang Liu
発行日 2024-06-11 17:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク