Steerable Transformers

要約

この作業では、特別なユークリッドグループ$ \ mathrm {se}(d)$への等量を維持する視覚変圧器メカニズムの拡張である操縦可能な変圧器を導入します。
操縦可能な畳み込みによって抽出された特徴で動作する同等の注意メカニズムを提案します。
フーリエスペースで動作する当社のネットワークは、フーリエスペースの非線形性を利用しています。
2次元と3次元の両方での実験は、操縦可能な変圧器層を操縦可能な畳み込みネットワークに追加することでパフォーマンスが向上することを示しています。

要約(オリジナル)

In this work we introduce Steerable Transformers, an extension of the Vision Transformer mechanism that maintains equivariance to the special Euclidean group $\mathrm{SE}(d)$. We propose an equivariant attention mechanism that operates on features extracted by steerable convolutions. Operating in Fourier space, our network utilizes Fourier space non-linearities. Our experiments in both two and three dimensions show that adding steerable transformer layers to steerable convolutional networks enhances performance.

arxiv情報

著者 Soumyabrata Kundu,Risi Kondor
発行日 2025-02-24 17:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク