Vision Transformers Need Registers

要約

トランスフォーマーは、視覚表現を学習するための強力なツールとして最近登場しました。
この論文では、教師あり ViT ネットワークと自己教師あり ViT ネットワークの両方の特徴マップにおけるアーティファクトを特定し、特徴付けます。
アーティファクトは、推論中に主に画像の情報量の少ない背景領域に現れる高ノルム トークンに対応しており、内部計算に再利用されます。
私たちは、その役割を果たすために、Vision Transformer の入力シーケンスに追加のトークンを提供することに基づいた、シンプルかつ効果的なソリューションを提案します。
私たちは、このソリューションが教師ありモデルと自己教師ありモデルの両方でその問題を完全に解決し、高密度視覚予測タスクで自己教師あり視覚モデルの新しい最先端技術を確立し、より大きなモデルでのオブジェクト発見方法を可能にし、そして最も重要なことに、
下流の視覚処理のためのよりスムーズな特徴マップとアテンション マップ。

要約(オリジナル)

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

arxiv情報

著者 Timothée Darcet,Maxime Oquab,Julien Mairal,Piotr Bojanowski
発行日 2023-09-28 16:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク