No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations

要約

このペーパーでは、自己教師あり勾配を活用してトランスエンコーダーの機能を強化する方法である FUNGI (教師なし勾配からの機能) を紹介します。
私たちの方法は単純です。事前トレーニングされたモデルが与えられた場合、まず入力ごとにさまざまな自己教師あり目標から勾配を計算します。
これらの勾配はより低い次元に投影され、モデルの出力埋め込みと連結されます。
結果として得られる特徴は、視覚からの 11 データセット、自然言語処理からの 5 つ、および音声からの 2 つのデータセットにわたる k 最近傍分類で評価されます。
FUNGI 機能は、さまざまなサイズと事前トレーニング戦略にまたがるバックボーン全体で、エンベディングに比べて一貫したパフォーマンスの向上を実現します。
また、FUNGI の機能を使用すると、線形分類、クラスタリング、画像検索にメリットがあり、事前学習済みモデルの検索ベースのコンテキスト内シーン理解能力が大幅に向上することも示します。たとえば、セマンティック セグメンテーションでは DINO が +17% 向上しました (セマンティック セグメンテーションなし)。
あらゆるトレーニング。

要約(オリジナル)

This paper introduces FUNGI, Features from UNsupervised GradIents, a method to enhance the features of transformer encoders by leveraging self-supervised gradients. Our method is simple: given any pretrained model, we first compute gradients from various self-supervised objectives for each input. These gradients are projected to a lower dimension and then concatenated with the model’s output embedding. The resulting features are evaluated on k-nearest neighbor classification over 11 datasets from vision, 5 from natural language processing, and 2 from audio. Across backbones spanning various sizes and pretraining strategies, FUNGI features provide consistent performance improvements over the embeddings. We also show that using FUNGI features can benefit linear classification, clustering and image retrieval, and that they significantly improve the retrieval-based in-context scene understanding abilities of pretrained models, for example improving upon DINO by +17% for semantic segmentation – without any training.

arxiv情報

著者 Walter Simoncini,Spyros Gidaris,Andrei Bursuc,Yuki M. Asano
発行日 2024-11-06 18:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク