SpikeBERT: A Language Spikformer Trained with Two-Stage Knowledge Distillation from BERT

要約

スパイキング ニューラル ネットワーク (SNN) は、よりエネルギー効率の高い方法でディープ ニューラル ネットワークを実装するための有望な手段を提供します。
ただし、言語タスク用の既存の SNN のネットワーク アーキテクチャは単純すぎるため、深いアーキテクチャは十分に検討されていないため、BERT などの主流のトランスフォーマー ベースのネットワークと比較してパフォーマンスに大きなギャップが生じています。
この目的を達成するために、我々は最近提案されたスパイキングトランスフォーマー(Spikformer)を改良して言語タスクの処理を可能にし、それを訓練するための2段階の知識蒸留法を提案します。
ラベルのないテキストの大規模なコレクションと、同じトレーニング例で微調整された BERT からの知識の再蒸留によるタスク固有のインスタンスでの微調整。
広範な実験を通じて、SpikeBERT と呼ばれる私たちの手法でトレーニングされたモデルが最先端の SNN を上回り、英語と中国語の両方のテキスト分類タスクにおいて、より少ないエネルギー消費で BERT と同等の結果を達成できることを示しました。

要約(オリジナル)

Spiking neural networks (SNNs) offer a promising avenue to implement deep neural networks in a more energy-efficient way. However, the network architectures of existing SNNs for language tasks are too simplistic, and deep architectures have not been fully explored, resulting in a significant performance gap compared to mainstream transformer-based networks such as BERT. To this end, we improve a recently-proposed spiking transformer (i.e., Spikformer) to make it possible to process language tasks and propose a two-stage knowledge distillation method for training it, which combines pre-training by distilling knowledge from BERT with a large collection of unlabelled texts and fine-tuning with task-specific instances via knowledge distillation again from the BERT fine-tuned on the same training examples. Through extensive experimentation, we show that the models trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and even achieve comparable results to BERTs on text classification tasks for both English and Chinese with much less energy consumption.

arxiv情報

著者 Changze Lv,Tianlong Li,Jianhan Xu,Chenxi Gu,Zixuan Ling,Cenyuan Zhang,Xiaoqing Zheng,Xuanjing Huang
発行日 2023-08-30 09:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク