GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples

要約

膨大な量のパラメータの影響を受ける ViT は、通常、比較的限られた数のトレーニング サンプルで深刻な過剰適合の問題に悩まされます。
さらに、ViT は一般に大量のコンピューティング リソースを必要とするため、リソースに制約のあるデバイスへの展開が制限されます。
モデル圧縮方法の一種として、モデル 2 値化は、上記の問題を解決するのに潜在的に良い選択です。
完全精度のモデルと比較して、二値化手法を使用したモデルは、複雑なテンソル乗算を単純なビット単位の二値演算に置き換え、完全精度のモデル パラメーターとアクティベーションを 1 ビットのものだけで表現します。これにより、モデル サイズとアクティベーションの問題が解決される可能性があります。
それぞれ計算の複雑さ。
この論文では、バイナリ ViT モデルの精度の低下が、主にアテンション モジュールとバリュー ベクトルの情報損失によるものであることを発見しました。
したがって、これらの問題に対処するために、グループ重ね合わせ二値化 (GSB) と呼ばれる新しいモデル二値化手法を提案します。
さらに、二値化モデルの性能をさらに向上させるために、二値化処理における勾配計算手順を検討し、勾配ミスマッチの影響を軽減するためのより適切なGSBの勾配計算式を導出しました。
次に、モデルの二値化によるパフォーマンスの低下を軽減するために、知識蒸留手法が導入されます。
限られた数のトレーニング サンプルを使用した 3 つのデータセットでの実験では、提案された GSB モデルがバイナリ量子化スキームの中で最先端のパフォーマンスを達成し、一部の指標で完全精度の対応モデルを上回っていることが実証されました。

要約(オリジナル)

Affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method,model binarization is potentially a good choice to solve the above problems. Compared with the full-precision one, the model with the binarization method replaces complex tensor multiplication with simple bit-wise binary operations and represents full-precision model parameters and activations with only 1-bit ones, which potentially solves the problem of model size and computational complexity, respectively. In this paper, we find that the decline of the accuracy of the binary ViT model is mainly due to the information loss of the Attention module and the Value vector. Therefore, we propose a novel model binarization technique, called Group Superposition Binarization (GSB), to deal with these issues. Furthermore, in order to further improve the performance of the binarization model, we have investigated the gradient calculation procedure in the binarization process and derived more proper gradient calculation equations for GSB to reduce the influence of gradient mismatch. Then, the knowledge distillation technique is introduced to alleviate the performance degradation caused by model binarization. Experiments on three datasets with limited numbers of training samples demonstrate that the proposed GSB model achieves state-of-the-art performance among the binary quantization schemes and exceeds its full-precision counterpart on some indicators.

arxiv情報

著者 Tian Gao,Cheng-Zhong Xu,Le Zhang,Hui Kong
発行日 2023-05-16 14:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク