要約
この研究では、MobileViT の拡張バージョンである FilterViT を紹介します。これは、初期段階のダウンサンプリングにアテンションベースのメカニズムを活用します。
高解像度の特徴マップに対する従来の QKV 操作は、トークンが大量にあるため、大量の計算を要します。
これに対処するために、畳み込みニューラル ネットワーク (CNN) を使用して重要な画像領域に注目を集めて重要度マスクを生成するフィルター アテンション メカニズムを提案します。
この方法は、重要な画像領域を強調表示するため、解釈可能性を維持しながら、計算の複雑さを大幅に軽減します。
実験結果は、FilterViT が他のモデルと比較して効率と精度の両方で大幅な向上を達成することを示しています。
また、ピクセル選択に確率的アプローチを使用し、堅牢性をさらに強化するバリアントである DropoutViT も紹介します。
要約(オリジナル)
In this study, we introduce FilterViT, an enhanced version of MobileViT, which leverages an attention-based mechanism for early-stage downsampling. Traditional QKV operations on high-resolution feature maps are computationally intensive due to the abundance of tokens. To address this, we propose a filter attention mechanism using a convolutional neural network (CNN) to generate an importance mask, focusing attention on key image regions. The method significantly reduces computational complexity while maintaining interpretability, as it highlights essential image areas. Experimental results show that FilterViT achieves substantial gains in both efficiency and accuracy compared to other models. We also introduce DropoutViT, a variant that uses a stochastic approach for pixel selection, further enhancing robustness.
arxiv情報
著者 | Bohang Sun |
発行日 | 2024-11-04 14:06:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google