ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba

要約

Visual Mamba Networks(VIMS)は、選択的宇宙状態モデル(MAMBA)をさまざまなビジョンタスクに拡張し、重要な可能性を示しています。
一方、ベクトル量子化(VQ)は、ネットワークの重みをコードブックと割り当てに分解し、メモリの使用量と計算レイテンシを大幅に削減して、エッジデバイスでのVIMの展開を有効にします。
既存のVQメソッドは、畳み込みニューラルネットワークおよびトランスベースのネットワークで非常に低ビットの量子化(3ビット、2ビット、1ビット、1ビットなど)を達成しましたが、これらの方法をVIMに直接適用すると、不十分な精度が得られます。
いくつかの重要な課題を特定します。1)VIMのMambaベースのブロックの重みには、量子化エラーが大幅に増幅される多数の外れ値が含まれています。
2)VIMSに適用されると、最新のVQメソッドは、最適なコードワードの検索で、過剰なメモリ消費、長いキャリブレーション手順、および最適ではないパフォーマンスに悩まされます。
このホワイトペーパーでは、VIM-VIM-VQを提案します。VIM-VQは、VIMに合わせた効率的なトレーニング後のベクター量子化方法です。
VIM-VQは、2つの革新的なコンポーネントで構成されています。1)凸の組み合わせと凸面の両方を効率的に更新して最適なコードワードを検索する高速凸組み合わせ最適化アルゴリズム、および2)最適なコードワードを漸進的に確認する増分ベクター量子化戦略を検索します。
実験結果は、VIM-VQがさまざまな視覚タスクにわたって低ビットの量子化で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Visual Mamba networks (ViMs) extend the selective space state model (Mamba) to various vision tasks and demonstrate significant potential. Vector quantization (VQ), on the other hand, decomposes network weights into codebooks and assignments, significantly reducing memory usage and computational latency to enable ViMs deployment on edge devices. Although existing VQ methods have achieved extremely low-bit quantization (e.g., 3-bit, 2-bit, and 1-bit) in convolutional neural networks and Transformer-based networks, directly applying these methods to ViMs results in unsatisfactory accuracy. We identify several key challenges: 1) The weights of Mamba-based blocks in ViMs contain numerous outliers, significantly amplifying quantization errors. 2) When applied to ViMs, the latest VQ methods suffer from excessive memory consumption, lengthy calibration procedures, and suboptimal performance in the search for optimal codewords. In this paper, we propose ViM-VQ, an efficient post-training vector quantization method tailored for ViMs. ViM-VQ consists of two innovative components: 1) a fast convex combination optimization algorithm that efficiently updates both the convex combinations and the convex hulls to search for optimal codewords, and 2) an incremental vector quantization strategy that incrementally confirms optimal codewords to mitigate truncation errors. Experimental results demonstrate that ViM-VQ achieves state-of-the-art performance in low-bit quantization across various visual tasks.

arxiv情報

著者 Juncan Deng,Shuaiting Li,Zeyu Wang,Kedong Xu,Hong Gu,Kejie Huang
発行日 2025-03-12 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク