An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

要約

この作品は新しい手法を導入するものではありません。
その代わりに、現代のコンピュータ ビジョン アーキテクチャにおける帰納的バイアス、つまり局所性の必要性を疑問視する興味深い発見を提示します。
具体的には、バニラのトランスフォーマーは個々のピクセルをトークンとして直接扱うことで動作し、高いパフォーマンスの結果を達成できることがわかりました。
これは、ConvNet からローカル近傍への誘導バイアスを維持する (たとえば、各 16×16 パッチをトークンとして扱うことによって) Vision Transformer の一般的な設計とは大きく異なります。
私たちは主に、オブジェクト分類のための教師あり学習、マスクされた自動エンコーディングによる自己教師あり学習、拡散モデルによる画像生成という、コンピューター ビジョンでよく研究されている 3 つのタスクにわたるピクセルとしてのトークンの有効性を紹介します。
個々のピクセルを直接操作することは計算上あまり実用的ではありませんが、コンピューター ビジョン用の次世代のニューラル アーキテクチャを考案する際には、コミュニティがこの驚くべき知識を認識しておく必要があると私たちは考えています。

要約(オリジナル)

This work does not introduce a new method. Instead, we present an interesting finding that questions the necessity of the inductive bias — locality in modern computer vision architectures. Concretely, we find that vanilla Transformers can operate by directly treating each individual pixel as a token and achieve highly performant results. This is substantially different from the popular design in Vision Transformer, which maintains the inductive bias from ConvNets towards local neighborhoods (e.g. by treating each 16×16 patch as a token). We mainly showcase the effectiveness of pixels-as-tokens across three well-studied tasks in computer vision: supervised learning for object classification, self-supervised learning via masked autoencoding, and image generation with diffusion models. Although directly operating on individual pixels is less computationally practical, we believe the community must be aware of this surprising piece of knowledge when devising the next generation of neural architectures for computer vision.

arxiv情報

著者 Duy-Kien Nguyen,Mahmoud Assran,Unnat Jain,Martin R. Oswald,Cees G. M. Snoek,Xinlei Chen
発行日 2024-06-13 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク