No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations

要約

このペーパーでは、自己教師あり勾配を活用してビジョン エンコーダーの機能を強化する方法である FUNGI (教師なし勾配からの機能) を紹介します。
私たちの方法は単純です。事前トレーニングされたモデルが与えられた場合、まず入力ごとにさまざまな自己教師あり目標から勾配を計算します。
これらはより低い次元に投影され、モデルの埋め込みと連結されます。
結果として得られる特徴は、視覚からの 11 データセット、自然言語処理からの 5 つ、および音声からの 2 つのデータセットにわたる k 最近傍分類で評価されます。
FUNGI 機能は、さまざまなサイズと事前トレーニング戦略にまたがるバックボーン全体で、エンベディングに比べて一貫したパフォーマンスの向上を実現します。
また、FUNGI の機能を使用すると、線形分類と画像検索に利点があり、事前トレーニング済みモデルの検索ベースのコンテキスト内シーン理解能力が大幅に向上することも示します。たとえば、トレーニングなしでセマンティック セグメンテーションに関して DINO が +17% 向上しました。

要約(オリジナル)

This paper introduces FUNGI, Features from UNsupervised GradIents, a method to enhance the features of vision encoders by leveraging self-supervised gradients. Our method is simple: given any pretrained model, we first compute gradients from various self-supervised objectives for each input. These are projected to a lower dimension and then concatenated with the model’s embedding. The resulting features are evaluated on k-nearest neighbor classification over 11 datasets from vision, 5 from natural language processing, and 2 from audio. Across backbones spanning various sizes and pretraining strategies, FUNGI features provide consistent performance improvements over the embeddings. We also show that using FUNGI features can benefit linear classification and image retrieval, and that they significantly improve the retrieval-based in-context scene understanding abilities of pretrained models, for example improving upon DINO by +17% for semantic segmentation – without any training.

arxiv情報

著者 Walter Simoncini,Spyros Gidaris,Andrei Bursuc,Yuki M. Asano
発行日 2024-07-15 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク