要約
Mamba および Vision Mamba (Vim) モデルは、Transformer アーキテクチャに基づくメソッドの代替としての可能性を示しています。
この研究では、Vim モデルのトレーニング効率を向上させるクロスレイヤー トークン融合技術である Fast Mamba for Vision (Famba-V) を導入します。
Famba-V の重要なアイデアは、既存の作品が提案しているすべてのレイヤーにトークン融合を単に均一に適用するのではなく、一連のクロスレイヤー戦略に基づいて、異なる Vim レイヤー間で同様のトークンを識別して融合することです。
CIFAR-100上でFamba-Vの性能を評価します。
私たちの結果は、Famba-V がトレーニング時間とトレーニング中のピークメモリ使用量の両方を削減することにより、Vim モデルのトレーニング効率を向上できることを示しています。
さらに、提案されたクロスレイヤー戦略により、Famba-V は優れた精度と効率のトレードオフを実現できます。
これらの結果を総合すると、Famba-V が Vim モデルの効率向上技術として期待できることを示しています。
要約(オリジナル)
Mamba and Vision Mamba (Vim) models have shown their potential as an alternative to methods based on Transformer architecture. This work introduces Fast Mamba for Vision (Famba-V), a cross-layer token fusion technique to enhance the training efficiency of Vim models. The key idea of Famba-V is to identify and fuse similar tokens across different Vim layers based on a suit of cross-layer strategies instead of simply applying token fusion uniformly across all the layers that existing works propose. We evaluate the performance of Famba-V on CIFAR-100. Our results show that Famba-V is able to enhance the training efficiency of Vim models by reducing both training time and peak memory usage during training. Moreover, the proposed cross-layer strategies allow Famba-V to deliver superior accuracy-efficiency trade-offs. These results all together demonstrate Famba-V as a promising efficiency enhancement technique for Vim models.
arxiv情報
著者 | Hui Shen,Zhongwei Wan,Xin Wang,Mi Zhang |
発行日 | 2024-10-01 12:03:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google