要約
私たちは、ビジョン トランスフォーマー (ViT) に固有の微妙だが重要な課題を詳しく掘り下げます。これらのモデルのフィーチャ マップにはグリッド状のアーティファクトが表示され、下流のタスクで ViT のパフォーマンスに悪影響を及ぼします。
私たちの調査では、この根本的な問題を入力段階での位置埋め込みにまで追跡しました。
これに対処するために、すべての ViT に普遍的に適用できる新しいノイズ モデルを提案します。
具体的には、ノイズ モデルは、ViT 出力を 3 つのコンポーネントに分割します。1 つはノイズ アーチファクトのないセマンティクス項、もう 1 つはピクセル位置に条件付けされる 2 つのアーチファクト関連項です。
このような分解は、画像ごとにニューラル フィールドとビュー間の特徴の一貫性を強制することによって実現されます。
この画像ごとの最適化プロセスにより、生の ViT 出力からアーティファクトのない特徴が抽出され、オフライン アプリケーションにクリーンな特徴が提供されます。
オンライン機能をサポートするソリューションの範囲を拡大し、未処理の ViT 出力からアーティファクトのない特徴を直接予測する学習可能なデノイザーを導入します。これは、画像ごとの最適化を必要とせずに、新しいデータに対する顕著な一般化機能を示します。
Denoising Vision Transformers (DVT) と呼ばれる私たちの 2 段階のアプローチは、既存の事前トレーニング済み ViT を再トレーニングする必要がなく、Transformer ベースのアーキテクチャにすぐに適用できます。
さまざまな代表的な ViT (DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg) でメソッドを評価します。
広範な評価により、当社の DVT は、複数のデータセットにわたるセマンティックおよび幾何学的タスクにおいて、既存の最先端の汎用モデルを一貫して大幅に改善することが実証されています (例: +3.84 mIoU)。
私たちの研究が、特に位置埋め込みの単純な使用に関して、ViT 設計の再評価を促進することを願っています。
要約(オリジナル)
We delve into a nuanced but significant challenge inherent to Vision Transformers (ViTs): feature maps of these models exhibit grid-like artifacts, which detrimentally hurt the performance of ViTs in downstream tasks. Our investigations trace this fundamental issue down to the positional embeddings at the input stage. To address this, we propose a novel noise model, which is universally applicable to all ViTs. Specifically, the noise model dissects ViT outputs into three components: a semantics term free from noise artifacts and two artifact-related terms that are conditioned on pixel locations. Such a decomposition is achieved by enforcing cross-view feature consistency with neural fields in a per-image basis. This per-image optimization process extracts artifact-free features from raw ViT outputs, providing clean features for offline applications. Expanding the scope of our solution to support online functionality, we introduce a learnable denoiser to predict artifact-free features directly from unprocessed ViT outputs, which shows remarkable generalization capabilities to novel data without the need for per-image optimization. Our two-stage approach, termed Denoising Vision Transformers (DVT), does not require re-training existing pre-trained ViTs and is immediately applicable to any Transformer-based architecture. We evaluate our method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT consistently and significantly improves existing state-of-the-art general-purpose models in semantic and geometric tasks across multiple datasets (e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT design, especially regarding the naive use of positional embeddings.
arxiv情報
著者 | Jiawei Yang,Katie Z Luo,Jiefeng Li,Kilian Q Weinberger,Yonglong Tian,Yue Wang |
発行日 | 2024-01-05 18:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google