Teacher Intervention: Improving Convergence of Quantization Aware Training for Ultra-Low Precision Transformers

要約

BERT などの事前トレーニング済みの Transformer モデルは、幅広いアプリケーションで大きな成功を収めていますが、モデルの複雑さが大幅に増加するという代償を払っています。
量子化認識トレーニング (QAT) は、実装コストとエネルギー消費を削減する有望な方法です。
ただし、2 ビット未満の積極的な量子化は、特に下流のデータセットが豊富でない場合に、収束が不安定になるため、精度が大幅に低下します。
この作業では、超低精度の事前トレーニング済みトランスフォーマーの高速収束 QAT のために、Teacher Intervention (TI) と呼ばれるプロアクティブな知識蒸留法を提案します。
TI は、教師からの無傷の信号を使用してレイヤー単位の信号伝搬に介入し、伝搬された量子化エラーの干渉を除去し、QAT の損失面を平滑化し、収束を促進します。
さらに、量子化からの Transformer レイヤーのサブセクションの回復を安定させるための段階的な介入メカニズムを提案します。
提案されたスキームは、下流の微調整タスクの多様な特性に関係なく、QAT の高速収束を可能にし、モデルの精度を向上させます。
TI は、最先端の QAT メソッドと比較して、よく知られた自然言語処理のトランスフォーマーとコンピューター ビジョンで微調整の反復回数を大幅に減らして、一貫して優れた精度を達成していることを示しています。

要約(オリジナル)

Pre-trained Transformer models such as BERT have shown great success in a wide range of applications, but at the cost of substantial increases in model complexity. Quantization-aware training (QAT) is a promising method to lower the implementation cost and energy consumption. However, aggressive quantization below 2-bit causes considerable accuracy degradation due to unstable convergence, especially when the downstream dataset is not abundant. This work proposes a proactive knowledge distillation method called Teacher Intervention (TI) for fast converging QAT of ultra-low precision pre-trained Transformers. TI intervenes layer-wise signal propagation with the intact signal from the teacher to remove the interference of propagated quantization errors, smoothing loss surface of QAT and expediting the convergence. Furthermore, we propose a gradual intervention mechanism to stabilize the recovery of subsections of Transformer layers from quantization. The proposed schemes enable fast convergence of QAT and improve the model accuracy regardless of the diverse characteristics of downstream fine-tuning tasks. We demonstrate that TI consistently achieves superior accuracy with significantly lower fine-tuning iterations on well-known Transformers of natural language processing as well as computer vision compared to the state-of-the-art QAT methods.

arxiv情報

著者 Minsoo Kim,Kyuhong Shim,Seongmin Park,Wonyong Sung,Jungwook Choi
発行日 2023-02-23 06:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク