要約
このペーパーでは、oBERTa 言語モデルの範囲を紹介します。これは、自然言語処理 (NLP) 実践者がモデル圧縮の専門知識がなくても 3.8 ~ 24.3 倍高速なモデルを取得できるようにする使いやすい言語モデルのセットです。
具体的には、oBERTa は枝刈り、知識の蒸留、量子化に関する既存の作業を拡張し、凍結された埋め込みを利用して蒸留とモデルの初期化を改善し、幅広い転送タスクでより高い精度を実現します。
oBERTa を生成する際に、事前トレーニングおよび微調整中の枝刈りに関して、高度に最適化された RoBERTa が BERT とどのように異なるかを調査します。
微調整中の圧縮の影響を受けにくいことがわかりました。
7 つの代表的な NLP タスクでの oBERTa の使用を調査し、改善された圧縮技術により、プルーニングされた oBERTa モデルが BERTbase のパフォーマンスに匹敵し、8 倍であるにもかかわらず、SQUAD V1.1 質問応答データセット上の Prune OFA Large のパフォーマンスを超えることがわかりました。
推論がそれぞれ 2 倍速くなります。
使用と実験を促進するために、コード、トレーニング体制、および関連モデルを広範な用途に向けてリリースします。
要約(オリジナル)
In this paper, we introduce the range of oBERTa language models, an easy-to-use set of language models which allows Natural Language Processing (NLP) practitioners to obtain between 3.8 and 24.3 times faster models without expertise in model compression. Specifically, oBERTa extends existing work on pruning, knowledge distillation, and quantization and leverages frozen embeddings improves distillation and model initialization to deliver higher accuracy on a broad range of transfer tasks. In generating oBERTa, we explore how the highly optimized RoBERTa differs from the BERT for pruning during pre-training and finetuning. We find it less amenable to compression during fine-tuning. We explore the use of oBERTa on seven representative NLP tasks and find that the improved compression techniques allow a pruned oBERTa model to match the performance of BERTbase and exceed the performance of Prune OFA Large on the SQUAD V1.1 Question Answering dataset, despite being 8x and 2x, respectively faster in inference. We release our code, training regimes, and associated model for broad usage to encourage usage and experimentation
arxiv情報
著者 | Daniel Campos,Alexandre Marques,Mark Kurtz,ChengXiang Zhai |
発行日 | 2023-06-06 16:30:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google