Revisiting Token Dropping Strategy in Efficient BERT Pretraining

要約

トークン ドロップは、いくつかの中間層で入力トークンのサブセットの計算をスキップすることにより、BERT などのマスクされた言語モデルの事前トレーニングを高速化するために最近提案された戦略です。
下流タスクのパフォーマンスをあまり低下させることなく、トレーニング時間を効果的に短縮できます。
ただし、トークンのドロップはセマンティック損失の問題を引き起こしやすく、セマンティックなタスクを処理するには不十分であることが経験的にわかっています。
これを動機として、トークンドロップを改善するためのシンプルかつ効果的な意味整合性学習法 (ScTD) を提案します。
ScTD は、モデルが表現空間内で意味論的な情報を保存する方法を学習することを促進することを目的としています。
12 のタスクに関する広範な実験により、ScTD の助けを借りて、トークン ドロップによりすべてのタスク タイプとモデル サイズにわたって一貫した大幅なパフォーマンス向上が達成できることがわかりました。
さらに嬉しいことに、ScTD は事前トレーニング時間を最大 57% 節約し、バニラ トークンのドロップに比べて平均で最大 +1.56% の改善をもたらします。

要約(オリジナル)

Token dropping is a recently-proposed strategy to speed up the pretraining of masked language models, such as BERT, by skipping the computation of a subset of the input tokens at several middle layers. It can effectively reduce the training time without degrading much performance on downstream tasks. However, we empirically find that token dropping is prone to a semantic loss problem and falls short in handling semantic-intense tasks. Motivated by this, we propose a simple yet effective semantic-consistent learning method (ScTD) to improve the token dropping. ScTD aims to encourage the model to learn how to preserve the semantic information in the representation space. Extensive experiments on 12 tasks show that, with the help of our ScTD, token dropping can achieve consistent and significant performance gains across all task types and model sizes. More encouragingly, ScTD saves up to 57% of pretraining time and brings up to +1.56% average improvement over the vanilla token dropping.

arxiv情報

著者 Qihuang Zhong,Liang Ding,Juhua Liu,Xuebo Liu,Min Zhang,Bo Du,Dacheng Tao
発行日 2023-05-24 15:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク