Vision Transformers with Mixed-Resolution Tokenization

要約

【タイトル】混合解像度トークン化を利用したビジョントランスフォーマー

【要約】

– ビジョントランスフォーマーモデルは、入力画像を等しいサイズのパッチの空間的に規則的なグリッドに分割することによって処理する。
– 一方、トランスフォーマーは、各トークンがサブワード-任意のサイズの生データの塊を表す自然言語のシークエンス全体で最初に紹介された。
– 本研究では、このアプローチをビジョントランスフォーマーに適用し、標準の均一なグリッドを混合解像度トークンのシーケンスに置き換え、各トークンが任意サイズのパッチを表す新しい画像トークン化スキームを導入する。
– Quadtreeアルゴリズムと新しいサリエンシースコアリング機能を使用して、画像の低サリエンシーエリアを低解像度で処理し、重要な画像領域にモデルのキャパシティをルーティングするパッチモザイクを構築する。
– Vanilla ViTsと同じアーキテクチャを使用して、Quadformerモデルは、計算予算を制御した場合に、画像分類の精度が大幅に向上する。
– コードとモデルは、https://github.com/TomerRonen34/mixed-resolution-vitで公開されています。

要約(オリジナル)

Vision Transformer models process input images by dividing them into a spatially regular grid of equal-size patches. Conversely, Transformers were originally introduced over natural language sequences, where each token represents a subword – a chunk of raw data of arbitrary size. In this work, we apply this approach to Vision Transformers by introducing a novel image tokenization scheme, replacing the standard uniform grid with a mixed-resolution sequence of tokens, where each token represents a patch of arbitrary size. Using the Quadtree algorithm and a novel saliency scorer, we construct a patch mosaic where low-saliency areas of the image are processed in low resolution, routing more of the model’s capacity to important image regions. Using the same architecture as vanilla ViTs, our Quadformer models achieve substantial accuracy gains on image classification when controlling for the computational budget. Code and models are publicly available at https://github.com/TomerRonen34/mixed-resolution-vit .

arxiv情報

著者 Tomer Ronen,Omer Levy,Avram Golbert
発行日 2023-04-27 13:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク