$E(2)$-Equivariant Vision Transformer

要約

Vision Transformer (ViT) は、コンピューター ビジョンにおいて目覚ましいパフォーマンスを達成しました。
ただし、ViT の位置エンコーディングにより、データの固有の等分散性を学習することが大幅に困難になります。
等変 ViT を設計するという初期の試みが行われましたが、この論文ではいくつかのケースで欠陥があることが判明しました。
この問題に対処するために、新しい効果的な位置符号化演算子を介して群等変視覚変換器 (GE-ViT) を設計します。
GE-ViT が等変ニューラル ネットワークの理論的要件をすべて満たしていることを証明します。
標準的なベンチマーク データセットに対して包括的な実験が行われ、GE-ViT が非等変セルフ アテンション ネットワークよりも大幅に優れていることが実証されました。
コードは https://github.com/ZJUCDSYangKaifan/GEVit で入手できます。

要約(オリジナル)

Vision Transformer (ViT) has achieved remarkable performance in computer vision. However, positional encoding in ViT makes it substantially difficult to learn the intrinsic equivariance in data. Initial attempts have been made on designing equivariant ViT but are proved defective in some cases in this paper. To address this issue, we design a Group Equivariant Vision Transformer (GE-ViT) via a novel, effective positional encoding operator. We prove that GE-ViT meets all the theoretical requirements of an equivariant neural network. Comprehensive experiments are conducted on standard benchmark datasets, demonstrating that GE-ViT significantly outperforms non-equivariant self-attention networks. The code is available at https://github.com/ZJUCDSYangKaifan/GEVit.

arxiv情報

著者 Renjun Xu,Kaifan Yang,Ke Liu,Fengxiang He
発行日 2023-07-07 06:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク