要約
データフリー量子化 (DFQ) は、元のトレーニング データを使用せずに、多くの場合合成データセットを使用して、完全精度の対応物から軽量ネットワークを作成する手法です。
ビジョン トランスフォーマー (ViT) アーキテクチャ用にいくつかの DFQ 方法が提案されていますが、低ビット設定では有効性を達成できません。
既存の手法を検証すると、合成データでは不整合なアテンション マップが生成されるのに対し、実際のサンプルのアテンション マップは高度に整合していることがわかります。
アテンションの調整の観察から、合成データのアテンション マップを調整すると、量子化された ViT の全体的なパフォーマンスの向上に役立つことがわかりました。
この発見に動機付けられて、私たちは頭間の注意の類似性に焦点を当てた ViT 向けに設計された新しい DFQ 手法である \aname を考案しました。
まず、空間クエリ パッチに関連して頭に関する注意応答を調整することにより、合成データを生成します。
次に、頭ごとの構造的注意蒸留を適用して、量子化ネットワークの注意マップを完全精度の教師の注意マップに合わせます。
実験結果は、提案された方法がベースラインを大幅に上回っており、データフリーの ViT 量子化の新しい最先端のパフォーマンスを確立していることを示しています。
要約(オリジナル)
Data-free quantization (DFQ) is a technique that creates a lightweight network from its full-precision counterpart without the original training data, often through a synthetic dataset. Although several DFQ methods have been proposed for vision transformer (ViT) architectures, they fail to achieve efficacy in low-bit settings. Examining the existing methods, we identify that their synthetic data produce misaligned attention maps, while those of the real samples are highly aligned. From the observation of aligned attention, we find that aligning attention maps of synthetic data helps to improve the overall performance of quantized ViTs. Motivated by this finding, we devise \aname, a novel DFQ method designed for ViTs that focuses on inter-head attention similarity. First, we generate synthetic data by aligning head-wise attention responses in relation to spatial query patches. Then, we apply head-wise structural attention distillation to align the attention maps of the quantized network to those of the full-precision teacher. The experimental results show that the proposed method significantly outperforms baselines, setting a new state-of-the-art performance for data-free ViT quantization.
arxiv情報
著者 | Kanghyun Choi,Hye Yoon Lee,Dain Kwon,SunJong Park,Kyuyeun Kim,Noseong Park,Jinho Lee |
発行日 | 2024-07-30 02:03:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google