A Simple Framework for Open-Vocabulary Zero-Shot Segmentation

要約

ゼロショット分類機能は、視覚言語の対照的なフレームワーク内でトレーニングされたモデルで自然に発生します。
これらのモデルは分類能力に優れているにもかかわらず、ゼロショットのオープン語彙セグメンテーションのような密度の高いタスクでは苦戦します。
この欠陥は、多くの場合、キャプションに位置特定の手がかりがないことと、画像表現の学習とクロスモダリティの調整の両方を含む学習プロセスの絡み合った性質に起因すると考えられます。
これらの問題に取り組むために、オープンボキャブラリーのゼロショットセグメンテーションのためのシンプルなフレームワークである SimZSS を提案します。
この方法は 2 つの重要な原則に基づいています。i) テキスト エンコーダを排他的に調整しながら空間認識を示すフリーズ ビジョン専用モデルを活用すること、ii) テキストと言語知識の離散的性質を利用してキャプション内のローカル概念を正確に特定することです。
視覚的表現の品質を利用することで、私たちの方法は画像とキャプションのペアのデータセットのみを必要とし、厳選された小規模なデータセットと大規模なノイズの多いデータセットの両方に適応します。
8 つの GPU にわたる COCO キャプションでトレーニングすると、SimZSS は 8 つのベンチマーク データセットのうち 7 つで 15 分以内に最先端の結果を達成します。

要約(オリジナル)

Zero-shot classification capabilities naturally arise in models trained within a vision-language contrastive framework. Despite their classification prowess, these models struggle in dense tasks like zero-shot open-vocabulary segmentation. This deficiency is often attributed to the absence of localization cues in captions and the intertwined nature of the learning process, which encompasses both image representation learning and cross-modality alignment. To tackle these issues, we propose SimZSS, a Simple framework for open-vocabulary Zero-Shot Segmentation. The method is founded on two key principles: i) leveraging frozen vision-only models that exhibit spatial awareness while exclusively aligning the text encoder and ii) exploiting the discrete nature of text and linguistic knowledge to pinpoint local concepts within captions. By capitalizing on the quality of the visual representations, our method requires only image-caption pairs datasets and adapts to both small curated and large-scale noisy datasets. When trained on COCO Captions across 8 GPUs, SimZSS achieves state-of-the-art results on 7 out of 8 benchmark datasets in less than 15 minutes.

arxiv情報

著者 Thomas Stegmüller,Tim Lebailly,Nikola Dukic,Behzad Bozorgtabar,Tinne Tuytelaars,Jean-Philippe Thiran
発行日 2024-07-01 06:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク