BinaryViT: Towards Efficient and Accurate Binary Vision Transformers

要約

ビジョン トランスフォーマー (ViT) は、ほとんどのコンピューター ビジョン分野の基本アーキテクチャとして登場しましたが、メモリと計算コストがかなりかかるため、リソースが限られたデバイスでの適用が妨げられています。
最も強力な圧縮方法の 1 つである 2 値化は、重みとアクティベーション値を $\pm$1 として量子化することでニューラル ネットワークの計算を削減します。
既存の 2 値化手法は畳み込みニューラル ネットワーク (CNN) で優れたパフォーマンスを実証していますが、ViT の完全な 2 値化はまだ研究が不十分であり、大幅なパフォーマンス低下に悩まされています。
この論文では、まず、深刻なパフォーマンスの低下が主に二値化トレーニングにおける重みの振動と ViT の活性化における情報の歪みによって引き起こされることを経験的に主張します。
これらの分析に基づいて、ViT の量子化を限界まで押し上げる、ViT の正確な完全 2 値化スキーム $\textbf{BinaryViT}$ を提案します。
具体的には、二値化トレーニングにおける振動を低減するために重みの二峰性分布を駆動するための新しい勾配正則化スキーム (GRS) を提案します。
さらに、活性化分布を適応的に調整して二値化によって引き起こされる情報の歪みを軽減する活性化シフト モジュール (ASM) を設計します。
ImageNet データセットに対する広範な実験により、BinaryViT が強力なベースラインを常に 2.05% 上回り、完全にバイナリ化された ViT の精度が使用可能なレベルまで向上していることが示されています。
さらに、私たちの方法は、完全精度の DeiT-S と比較して、モデル サイズと OP で 16.2$\times$ と 17.7$\times$ の大幅な節約を達成します。

要約(オリジナル)

Vision Transformers (ViTs) have emerged as the fundamental architecture for most computer vision fields, but the considerable memory and computation costs hinders their application on resource-limited devices. As one of the most powerful compression methods, binarization reduces the computation of the neural network by quantizing the weights and activation values as $\pm$1. Although existing binarization methods have demonstrated excellent performance on Convolutional Neural Networks (CNNs), the full binarization of ViTs is still under-studied and suffering a significant performance drop. In this paper, we first argue empirically that the severe performance degradation is mainly caused by the weight oscillation in the binarization training and the information distortion in the activation of ViTs. Based on these analyses, we propose $\textbf{BinaryViT}$, an accurate full binarization scheme for ViTs, which pushes the quantization of ViTs to the limit. Specifically, we propose a novel gradient regularization scheme (GRS) for driving a bimodal distribution of the weights to reduce oscillation in binarization training. Moreover, we design an activation shift module (ASM) to adaptively tune the activation distribution to reduce the information distortion caused by binarization. Extensive experiments on ImageNet dataset show that our BinaryViT consistently surpasses the strong baseline by 2.05% and improve the accuracy of fully binarized ViTs to a usable level. Furthermore, our method achieves impressive savings of 16.2$\times$ and 17.7$\times$ in model size and OPs compared to the full-precision DeiT-S.

arxiv情報

著者 Junrui Xiao,Zhikai Li,Lianwei Yang,Qingyi Gu
発行日 2023-08-30 13:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク