Autoregressive Pretraining with Mamba in Vision

要約

ビジョン コミュニティは、さまざまなタスクの新しいバックボーンとして、最近開発された状態空間モデル Mamba を使用して構築を開始しました。
この論文は、Mamba の視覚能力が、これまで検討されていなかった方向である自己回帰事前トレーニングによって大幅に強化できることを示しています。
効率の面では、自己回帰の性質により Mamba の一方向再帰構造をうまく利用でき、マスク モデリングなどの他のトレーニング戦略と比較して全体的なトレーニング速度を速くすることができます。
パフォーマンスの面では、自己回帰事前トレーニングにより、Mamba アーキテクチャは、教師付きトレーニングされた対応物よりも著しく高い精度を備え、さらに重要なことに、そのスケーリングの可能性を大規模、さらには巨大なモデル サイズまで解放することに成功しました。
たとえば、自己回帰事前トレーニングを使用すると、基本サイズの Mamba は 83.2\% の ImageNet 精度を達成し、教師付き対応物を 2.0\% 上回ります。
これまでで最大の Vision Mamba である当社の巨大な Mamba は、85.0% の ImageNet 精度 ($384\times384$ の入力で微調整した場合は 85.5%) を達成しており、特にビジョンにおいて他のすべての Mamba バリアントを上回っています。
コードは \url{https://github.com/OliverRensu/ARM} で入手できます。

要約(オリジナル)

The vision community has started to build with the recently developed state space model, Mamba, as the new backbone for a range of tasks. This paper shows that Mamba’s visual capability can be significantly enhanced through autoregressive pretraining, a direction not previously explored. Efficiency-wise, the autoregressive nature can well capitalize on the Mamba’s unidirectional recurrent structure, enabling faster overall training speed compared to other training strategies like mask modeling. Performance-wise, autoregressive pretraining equips the Mamba architecture with markedly higher accuracy over its supervised-trained counterparts and, more importantly, successfully unlocks its scaling potential to large and even huge model sizes. For example, with autoregressive pretraining, a base-size Mamba attains 83.2\% ImageNet accuracy, outperforming its supervised counterpart by 2.0\%; our huge-size Mamba, the largest Vision Mamba to date, attains 85.0\% ImageNet accuracy (85.5\% when finetuned with $384\times384$ inputs), notably surpassing all other Mamba variants in vision. The code is available at \url{https://github.com/OliverRensu/ARM}.

arxiv情報

著者 Sucheng Ren,Xianhang Li,Haoqin Tu,Feng Wang,Fangxun Shu,Lei Zhang,Jieru Mei,Linjie Yang,Peng Wang,Heng Wang,Alan Yuille,Cihang Xie
発行日 2024-06-11 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク