NeCo: Improving DINOv2’s spatial representations in 19 GPU hours with Patch Neighbor Consistency

要約

事前トレーニングされた表現を改善するための新しい自己教師あり学習信号として、ビュー全体でパッチ表現をソートすることを提案します。
この目的を達成するために、NeCo: Patch Neighbor Consistency を導入します。これは、参照バッチと比較して、生徒と教師のモデル全体でパッチレベルの最近傍一貫性を強制する新しいトレーニング損失です。
私たちの手法では、DINOv2 レジスタなどの事前トレーニング済み表現の上に適用される微分可能な並べ替え手法を活用して、学習信号をブートストラップし、さらに改善します。
この高密度の事前トレーニングにより、単一の GPU でわずか 19 時間しかかからないにもかかわらず、さまざまなモデルやデータセットにわたって優れたパフォーマンスが得られます。
この方法が高品質の高密度特徴エンコーダを生成することを実証し、いくつかの新しい最先端の結果を確立しました。ADE20k および Pascal VOC でのノンパラメトリック インコンテキスト セマンティック セグメンテーションでは +5.5% および +6%、および +7.2
COCO-Things および -Stuff の線形セグメンテーション評価では、% および +5.7%。

要約(オリジナル)

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

arxiv情報

著者 Valentinos Pariza,Mohammadreza Salehi,Gertjan Burghouts,Francesco Locatello,Yuki M. Asano
発行日 2024-08-20 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク