Near, far: Patch-ordering enhances vision foundation models’ scene understanding

要約

NECO:PATCH Neighbor Consecencyを紹介します。これは、学生と教師モデル全体でパッチレベルの最近隣接する一貫性を実施する新しい自己監視のトレーニング損失です。
バイナリ学習信号のみ、つまり「引き付け」と「反発」のみを生成する対照的なアプローチと比較して、このアプローチは、参照パッチと比較して空間的に密な特徴をソートするというより微細な学習信号から利益を得ます。
私たちの方法は、DinoV2-registersなどの前提条件の表現の上に適用される微分可能な並べ替えを活用して、学習信号をブートストラップし、さらに改善します。
この密集後の予定は、単一のGPUで19時間しか必要としないにもかかわらず、さまざまなモデルとデータセットで優れたパフォーマンスにつながります。
この方法は、高品質の高密度機能エンコーダーを生成し、ADE20KおよびPascal VOCのノンパラメトリックインコンテキストセマンティックセグメンテーション、 +7.2%および + +など、 +5.5%および +6%などのいくつかの新しい最先端の結果を確立します。
5.7%Coco-Thingsの線形セグメンテーション評価と、SPAIR-71Kのマルチビューの一貫性の3D理解の頑丈な評価と改善、1.5%以上。

要約(オリジナル)

We introduce NeCo: Patch Neighbor Consistency, a novel self-supervised training loss that enforces patch-level nearest neighbor consistency across a student and teacher model. Compared to contrastive approaches that only yield binary learning signals, i.e., ‘attract’ and ‘repel’, this approach benefits from the more fine-grained learning signal of sorting spatially dense features relative to reference patches. Our method leverages differentiable sorting applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. This method generates high-quality dense feature encoders and establishes several new state-of-the-art results such as +5.5% and +6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff and improvements in the 3D understanding of multi-view consistency on SPair-71k, by more than 1.5%.

arxiv情報

著者 Valentinos Pariza,Mohammadreza Salehi,Gertjan Burghouts,Francesco Locatello,Yuki M. Asano
発行日 2025-02-11 14:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク