要約
ビジョン トランスフォーマーは多くの点でモーダルの従兄弟に遅れをとっていますが、シーケンス モデリングと画像モデリングの間のギャップを埋める興味深い機会を提供してきました。
しかし、これまで、計算効率の悪さと空間次元の適切な処理の欠如により、ビジョン トランスフォーマーの開発はほとんど行われませんでした。
本稿では、Cross-Axis Transformer について紹介します。
CAT は、Axial Transformers と Microsoft の最近の Retentive Network の両方からインスピレーションを得たモデルで、画像の処理に必要な浮動小数点演算の数を大幅に削減すると同時に、代わりとなる Vision Transformers よりも高速かつ正確に収束します。
要約(オリジナル)
Despite lagging behind their modal cousins in many respects, Vision Transformers have provided an interesting opportunity to bridge the gap between sequence modeling and image modeling. Up until now however, vision transformers have largely been held back, due to both computational inefficiency, and lack of proper handling of spatial dimensions. In this paper, we introduce the Cross-Axis Transformer. CAT is a model inspired by both Axial Transformers, and Microsoft’s recent Retentive Network, that drastically reduces the required number of floating point operations required to process an image, while simultaneously converging faster and more accurately than the Vision Transformers it replaces.
arxiv情報
著者 | Lily Erickson |
発行日 | 2023-11-29 17:01:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google