Vision-LSTM: xLSTM as Generic Vision Backbone

要約

トランスフォーマーは、当初は自然言語処理のために導入されたにもかかわらず、コンピューター ビジョンの汎用バックボーンとして広く使用されています。
最近、Long Short-Term Memory (LSTM) がスケーラブルでパフォーマンスの高いアーキテクチャである xLSTM に拡張され、指数関数的ゲートと並列化可能なマトリックス メモリ構造によって長年の LSTM の制限が克服されました。
このレポートでは、xLSTM ビルディング ブロックをコンピューター ビジョンに適応させた Vision-LSTM (ViL) を紹介します。
ViL は xLSTM ブロックのスタックで構成されており、奇数ブロックはパッチ トークンのシーケンスを上から下に処理し、偶数ブロックは下から上に処理します。
実験では、ViL がコンピューター ビジョン アーキテクチャの新しい汎用バックボーンとしてさらに展開される可能性があることが示されています。

要約(オリジナル)

Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture – the xLSTM – which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.

arxiv情報

著者 Benedikt Alkin,Maximilian Beck,Korbinian Pöppel,Sepp Hochreiter,Johannes Brandstetter
発行日 2024-06-06 17:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク