SPFormer: Enhancing Vision Transformer with Superpixel Representation

要約

この作品では、スーパーピクセル表現によって強化された新しいビジョン トランスフォーマーである SPFormer を紹介します。
従来の Vision Transformers の固定サイズ、非適応パッチ分割の制限に対処するため、SPFormer は画像のコンテンツに適応するスーパーピクセルを採用しています。
このアプローチは、画像を不規則で意味的に一貫した領域に分割し、複雑な詳細を効果的にキャプチャし、初期と中間の両方の特徴レベルに適用できます。
SPFormer はエンドツーエンドでトレーニング可能で、さまざまなベンチマークにわたって優れたパフォーマンスを示します。
特に、困難な ImageNet ベンチマークで大幅な改善が見られ、それぞれ DeiT-T に対して 1.4%、DeiT-S に対して 1.1% の向上を達成しています。
SPFormer の際立った特徴は、その固有の説明可能性です。
スーパーピクセル構造はモデルの内部プロセスへの窓を提供し、モデルの解釈可能性を高める貴重な洞察を提供します。
このレベルの明瞭さにより、特に画像の回転やオクルージョンなどの困難なシナリオにおいて、SPFormer の堅牢性が大幅に向上し、その適応性と回復力が実証されます。

要約(オリジナル)

In this work, we introduce SPFormer, a novel Vision Transformer enhanced by superpixel representation. Addressing the limitations of traditional Vision Transformers’ fixed-size, non-adaptive patch partitioning, SPFormer employs superpixels that adapt to the image’s content. This approach divides the image into irregular, semantically coherent regions, effectively capturing intricate details and applicable at both initial and intermediate feature levels. SPFormer, trainable end-to-end, exhibits superior performance across various benchmarks. Notably, it exhibits significant improvements on the challenging ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S respectively. A standout feature of SPFormer is its inherent explainability. The superpixel structure offers a window into the model’s internal processes, providing valuable insights that enhance the model’s interpretability. This level of clarity significantly improves SPFormer’s robustness, particularly in challenging scenarios such as image rotations and occlusions, demonstrating its adaptability and resilience.

arxiv情報

著者 Jieru Mei,Liang-Chieh Chen,Alan Yuille,Cihang Xie
発行日 2024-01-05 18:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク