要約
Vision Transformer (ViT) アーキテクチャは伝統的に、画像のセマンティック コンテンツとは無関係にトークン化にグリッド ベースのアプローチを採用しています。
我々は、トークン化と特徴抽出を分離するモジュール式スーパーピクセルトークン化戦略を提案します。
これらを未分化な全体として扱う現代のアプローチからの転換。
オンラインのコンテンツを意識したトークン化と、スケールおよび形状不変の位置埋め込みを使用して、パッチベースのトークン化とベースラインとしてのランダム化パーティションとのアプローチを対比する実験とアブレーションを実行します。
私たちの方法は、分類タスクの予測パフォーマンスを維持しながら、属性の忠実性を大幅に向上させ、ゼロショットの教師なし密予測タスクでピクセルレベルの粒度を提供することを示します。
私たちのアプローチは、標準アーキテクチャと同等のモジュール式トークン化フレームワークを提供し、ViT の空間をより大きなクラスの意味論的に豊富なモデルに拡張します。
要約(オリジナル)
Vision Transformer (ViT) architectures traditionally employ a grid-based approach to tokenization independent of the semantic content of an image. We propose a modular superpixel tokenization strategy which decouples tokenization and feature extraction; a shift from contemporary approaches where these are treated as an undifferentiated whole. Using on-line content-aware tokenization and scale- and shape-invariant positional embeddings, we perform experiments and ablations that contrast our approach with patch-based tokenization and randomized partitions as baselines. We show that our method significantly improves the faithfulness of attributions, gives pixel-level granularity on zero-shot unsupervised dense prediction tasks, while maintaining predictive performance in classification tasks. Our approach provides a modular tokenization framework commensurable with standard architectures, extending the space of ViTs to a larger class of semantically-rich models.
arxiv情報
著者 | Marius Aasan,Odd Kolbjørnsen,Anne Schistad Solberg,Adín Ramirez Rivera |
発行日 | 2024-08-15 12:07:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google