SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference

要約

動的早期終了は、BERT のような事前トレーニング済み言語モデルの推論速度を向上させることが証明されています。
ただし、すべてのサンプルは、早期に終了する前にすべての連続するレイヤーを通過する必要があり、より複雑なサンプルは通常、より多くのレイヤーを通過するため、冗長な計算が依然として存在します。
この論文では、BERTの各層にスキッピングゲートとexitingオペレーターを追加する、SmartBERTという名前のBERT推論のレイヤースキップと組み合わせた新しい動的早期終了を提案します。
SmartBERT は、いくつかのレイヤーを適応的にスキップし、終了するかどうかを適応的に選択できます。
さらに、クロスレイヤーの対照的な学習を提案し、それをトレーニングフェーズに組み合わせて、早期終了に役立つ中間レイヤーと分類器を強化します。
トレーニング フェーズと推論フェーズの間でスキップ ゲートの一貫した使用を維持するために、トレーニング フェーズ中にハード ウェイト メカニズムを提案します。
GLUE ベンチマークの 8 つの分類データセットで実験を行います。
実験結果は、SmartBERT が BERT と比較して最小限の精度低下で 2 ~ 3 倍の計算削減を達成し、私たちの方法が効率と精度の両方で以前の方法よりも優れていることを示しています。
さらに、RTE や WNLI などの一部の複雑なデータセットでは、エントロピーに基づく早期終了がほとんど機能せず、スキップ メカニズムが計算の削減に不可欠であることを証明します。

要約(オリジナル)

Dynamic early exiting has been proven to improve the inference speed of the pre-trained language model like BERT. However, all samples must go through all consecutive layers before early exiting and more complex samples usually go through more layers, which still exists redundant computation. In this paper, we propose a novel dynamic early exiting combined with layer skipping for BERT inference named SmartBERT, which adds a skipping gate and an exiting operator into each layer of BERT. SmartBERT can adaptively skip some layers and adaptively choose whether to exit. Besides, we propose cross-layer contrastive learning and combine it into our training phases to boost the intermediate layers and classifiers which would be beneficial for early exiting. To keep the consistent usage of skipping gates between training and inference phases, we propose a hard weight mechanism during training phase. We conduct experiments on eight classification datasets of the GLUE benchmark. Experimental results show that SmartBERT achieves 2-3x computation reduction with minimal accuracy drops compared with BERT and our method outperforms previous methods in both efficiency and accuracy. Moreover, in some complex datasets like RTE and WNLI, we prove that the early exiting based on entropy hardly works, and the skipping mechanism is essential for reducing computation.

arxiv情報

著者 Boren Hu,Yun Zhu,Jiacheng Li,Siliang Tang
発行日 2023-03-16 12:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク