MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation

要約

CLIP などの事前トレーニング済み視覚言語モデル (VLM) は、オープン語彙画像セグメンテーションにおけるオープン語彙認識とクローズ語彙認識の間のギャップを埋めるために使用されることが増えています。
VLM は通常、低解像度の画像 ($224\times224$ など) を使用して事前トレーニングされるため、以前のほとんどの方法はダウンスケールされた画像でのみ動作します。
低解像度の機能は細部を保存できないことが多いため、この設計には疑問を感じます。
典型的な解決策は、高解像度入力に追加の画像バックボーンを使用することですが、これにより大幅な計算オーバーヘッドも発生します。
したがって、単一の事前トレーニングされた CLIP バックボーンを備えたオープン語彙画像セグメンテーションのための多重解像度トレーニング フレームワークである MROVSeg を提案します。これは、スライディング ウィンドウを使用して高解像度入力を均一なパッ​​チにスライスし、それぞれが十分にトレーニングされた画像の入力サイズに一致します。
画像エンコーダ。
その主要なコンポーネントには、空間ジオメトリを復元し、マルチ解像度機能と対話することでパッチ全体のローカルとグローバルの対応関係を把握する Multi-Res アダプターが含まれます。
正確なセグメンテーションを実現するために、マルチ解像度の CLIP 機能からオブジェクト クエリまでマルチグレイン セマンティクスを集約するマルチグレイン マスク アテンション スキームを導入します。
包括的な実験を通じて、確立されたオープンボキャブラリー画像セグメンテーションベンチマークにおける MROVSeg の優位性を実証し、オープンボキャブラリー画像セグメンテーションの新しい標準を確立します。

要約(オリジナル)

Pretrained vision-language models (VLMs), \eg CLIP, are increasingly used to bridge the gap between open- and close-vocabulary recognition in open-vocabulary image segmentation. As VLMs are generally pretrained with low-resolution images (e.g. $224\times224$), most previous methods operate only on downscaled images. We question this design as low resolution features often fail to preserve fine details. A typical solution is to employ additional image backbones for high-resolution inputs, but it also introduce significant computation overhead. Therefore, we propose MROVSeg, a multi-resolution training framework for open-vocabulary image segmentation with a single pretrained CLIP backbone, that uses sliding windows to slice the high-resolution input into uniform patches, each matching the input size of the well-trained image encoder. Its key components include a Multi-Res Adapter, which restores the spatial geometry and grasps local-global correspondences across patches by interacting with multi-resolution features. To achieve accurate segmentation, we introduce Multi-grained Masked Attention scheme to aggregate multi-grained semantics from multi-resolution CLIP features to object queries. Through comprehensive experiments, we demonstrate the superiority of MROVSeg on well-established open-vocabulary image segmentation benchmarks, establishing new standards for open-vocabulary image segmentation.

arxiv情報

著者 Yuanbing Zhu,Bingke Zhu,Yingying Chen,Yunfang Niu,Ming Tang,Jinqiao Wang
発行日 2024-11-27 15:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク