CLIP-DINOiser: Teaching CLIP a few DINO tricks

要約

人気のある CLIP モデルは、任意のテキスト プロンプトとのシームレスな対話により、優れたゼロショット機能を示します。
ただし、空間認識が欠如しているため、アノテーションを頻繁に使用する追加の微調整ステップがなければ、セマンティック セグメンテーションなどの高密度のコンピューター ビジョン タスクには適さず、元のオープン語彙特性が潜在的に抑制される可能性があります。
一方、自己教師あり表現手法は、人為的な注釈や明示的な教師なしで良好な位置特定特性を実証しています。
この研究では、両方の長所を取り入れ、注釈を必要としないゼロショットのオープン語彙セマンティック セグメンテーション手法を提案します。
我々は、自己教師付き特徴から抽出された局所化事前分布を統合することにより、CLIP の最後のプーリング層を簡単に変更して計算された密な MaskCLIP 特徴を局所的に改善することを提案します。
これにより、MaskCLIP のパフォーマンスが大幅に向上し、スムーズな出力が生成されます。
さらに、使用される自己教師付き特徴のプロパティが CLIP 特徴から直接学習できるため、CLIP モデルを 1 回通過するだけで最良の結果が得られることを示します。
私たちの手法 CLIP-DINOiser は、推論時に CLIP の 1 回の順方向パスと 2 つの軽い畳み込み層のみを必要とし、追加の監視や追加のメモリは必要なく、COCO、Pascal Context などの困難で粒度の細かいベンチマークで最先端の結果に達します。
、都市景観とADE20k。
結果を再現するコードは https://github.com/wysoczanska/clip_dinoiser で入手できます。

要約(オリジナル)

The popular CLIP model displays impressive zero-shot capabilities thanks to its seamless interaction with arbitrary text prompts. However, its lack of spatial awareness makes it unsuitable for dense computer vision tasks, e.g., semantic segmentation, without an additional fine-tuning step that often uses annotations and can potentially suppress its original open-vocabulary properties. Meanwhile, self-supervised representation methods have demonstrated good localization properties without human-made annotations nor explicit supervision. In this work, we take the best of both worlds and propose a zero-shot open-vocabulary semantic segmentation method, which does not require any annotations. We propose to locally improve dense MaskCLIP features, computed with a simple modification of CLIP’s last pooling layer, by integrating localization priors extracted from self-supervised features. By doing so, we greatly improve the performance of MaskCLIP and produce smooth outputs. Moreover, we show that the used self-supervised feature properties can directly be learnt from CLIP features therefore allowing us to obtain the best results with a single pass through CLIP model. Our method CLIP-DINOiser needs only a single forward pass of CLIP and two light convolutional layers at inference, no extra supervision nor extra memory and reaches state-of-the-art results on challenging and fine-grained benchmarks such as COCO, Pascal Context, Cityscapes and ADE20k. The code to reproduce our results is available at https://github.com/wysoczanska/clip_dinoiser.

arxiv情報

著者 Monika Wysoczańska,Oriane Siméoni,Michaël Ramamonjisoa,Andrei Bursuc,Tomasz Trzciński,Patrick Pérez
発行日 2023-12-19 17:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク