要約
視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバトランスフォーカーバックボーン、マンバビジョンを提案します。
私たちの中核的な貢献には、MAMBA製剤の再設計が含まれ、視覚的特徴の効率的なモデリングの能力を高めます。
包括的なアブレーション研究を通じて、視覚変圧器(VIT)をMAMBAと統合する可能性を実証します。
私たちの結果は、最終層にMambaアーキテクチャを自己触媒ブロックに装備することで、長距離の空間依存関係をキャプチャする能力が大幅に向上することを示しています。
これらの調査結果に基づいて、さまざまな設計基準を満たすために、階層アーキテクチャを備えたマンバヴィジョンモデルのファミリーを紹介します。
ImagENET-1Kデータセットの分類では、Mambavisionバリエーションは、TOP-1の精度とスループットの両方の点で最先端(SOTA)パフォーマンスを実現します。
MS COCOおよびADE20Kデータセットのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどのダウンストリームタスクでは、Mambavisionは、好ましいパフォーマンスを示しながら、比較的サイズのバックボーンを上回ります。
コード:https://github.com/nvlabs/mambavision
要約(オリジナル)
We propose a novel hybrid Mamba-Transformer backbone, MambaVision, specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. Through a comprehensive ablation study, we demonstrate the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results show that equipping the Mamba architecture with self-attention blocks in the final layers greatly improves its capacity to capture long-range spatial dependencies. Based on these findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For classification on the ImageNet-1K dataset, MambaVision variants achieve state-of-the-art (SOTA) performance in terms of both Top-1 accuracy and throughput. In downstream tasks such as object detection, instance segmentation, and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably sized backbones while demonstrating favorable performance. Code: https://github.com/NVlabs/MambaVision
arxiv情報
著者 | Ali Hatamizadeh,Jan Kautz |
発行日 | 2025-03-25 17:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google