SPFormer: Enhancing Vision Transformer with Superpixel Representation


この作品では、スーパーピクセル表現によって強化された新しいビジョン トランスフォーマーである SPFormer を紹介します。
従来の Vision Transformers の固定サイズ、非適応パッチ分割の制限に対処するため、SPFormer は画像のコンテンツに適応するスーパーピクセルを採用しています。
SPFormer はエンドツーエンドでトレーニング可能で、さまざまなベンチマークにわたって優れたパフォーマンスを示します。
特に、困難な ImageNet ベンチマークで大幅な改善が見られ、それぞれ DeiT-T に対して 1.4%、DeiT-S に対して 1.1% の向上を達成しています。
SPFormer の際立った特徴は、その固有の説明可能性です。
このレベルの明瞭さにより、特に画像の回転やオクルージョンなどの困難なシナリオにおいて、SPFormer の堅牢性が大幅に向上し、その適応性と回復力が実証されます。


In this work, we introduce SPFormer, a novel Vision Transformer enhanced by superpixel representation. Addressing the limitations of traditional Vision Transformers’ fixed-size, non-adaptive patch partitioning, SPFormer employs superpixels that adapt to the image’s content. This approach divides the image into irregular, semantically coherent regions, effectively capturing intricate details and applicable at both initial and intermediate feature levels. SPFormer, trainable end-to-end, exhibits superior performance across various benchmarks. Notably, it exhibits significant improvements on the challenging ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S respectively. A standout feature of SPFormer is its inherent explainability. The superpixel structure offers a window into the model’s internal processes, providing valuable insights that enhance the model’s interpretability. This level of clarity significantly improves SPFormer’s robustness, particularly in challenging scenarios such as image rotations and occlusions, demonstrating its adaptability and resilience.


著者 Jieru Mei,Liang-Chieh Chen,Alan Yuille,Cihang Xie
発行日 2024-01-05 18:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク