CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

要約

既存のオープンボキャブラリーの画像セグメンテーション手法では、マスク ラベルや画像テキスト データセットの微調整ステップが必要です。
マスク ラベルは労働集約的であるため、セグメンテーション データセット内のカテゴリの数が制限されます。
その結果、事前トレーニングされた VLM の語彙能力は、微調整後に大幅に減少します。
ただし、微調整を行わないと、画像とテキストの弱い監視下でトレーニングされた VLM は、次善のマスク予測を行う傾向があります。
これらの問題を軽減するために、無関係なテキストを段階的に除外し、トレーニングの努力なしでマスクの品質を向上させる新しい反復フレームワークを導入します。
反復ユニットは、フリーズされた VLM 上に構築された 2 段階のセグメンタです。
したがって、私たちのモデルは VLM の幅広い語彙空間を保持し、それにセグメンテーション機能を備えています。
実験では、私たちの方法がトレーニングなしの対応する方法だけでなく、何百万ものデータサンプルで微調整された方法よりも優れており、ゼロショットセマンティックと参照セグメンテーションの両方で最先端の新しい記録を樹立することが示されています。
具体的には、Pascal VOC、COCO Object、Pascal Context で現在の記録を 28.8、16.0、6.9 mIoU 改善します。

要約(オリジナル)

Existing open-vocabulary image segmentation methods require a fine-tuning step on mask labels and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. Consequently, the vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a frozen VLM. Thus, our model retains the VLM’s broad vocabulary space and equips it with segmentation ability. Experiments show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of data samples, and sets the new state-of-the-art records for both zero-shot semantic and referring segmentation. Concretely, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.

arxiv情報

著者 Shuyang Sun,Runjia Li,Philip Torr,Xiuye Gu,Siyang Li
発行日 2024-05-07 12:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM パーマリンク