要約
TITLE – Sparse*BERT: Sparse Models Generalize To New tasks and Domains
この論文は、Sparsityという技術を使い、高い効率性を持つLarge Language Modelsの性能が、新しいタスクやドメインでどれくらい汎用的な効果を発揮できるかを研究したものである。
ABSTRACT –
– Large Language ModelsはNLPシステムの中心的なアーキテクチャになっている。
– これらのモデルは、タスクやドメインにわたって高い精度とロバスト性を維持するが、高い計算負荷によって処理が困難であり、高価である場合がある。
– 最近の研究では、構造化および非構造化プルーニング、量子化、蒸留を活用して推論速度を向上させ、サイズを減らすことが試みられている。
– Gradual Unstructured Magnitude Pruningを用いてプルーニングされたモデルが、新しいドメインやタスク間で転移可能であるかどうかを研究した。
– 実験結果により、汎用的なドメインマスク言語モデルで事前学習を行うことでプルーニングされたモデルが新しいドメインやタスクに適用でき、特別なアプローチやハイパーパラメータの探索が必要ないことを示した。
– Sparse*BERTという汎用的なスパースモデルは、バイオ医学テキストを非構造化学習データとして用いることで、SparseBioBERTに変換できることを示し、同時にパラメータ数の10%でBioBERTと同等の品質を発揮することを示した。
要約(オリジナル)
Large Language Models have become the core architecture upon which most modern natural language processing (NLP) systems build. These models can consistently deliver impressive accuracy and robustness across tasks and domains, but their high computational overhead can make inference difficult and expensive. To make using these models less costly, recent work has explored leveraging structured and unstructured pruning, quantization, and distillation to improve inference speed and decrease size. This paper studies how models pruned using Gradual Unstructured Magnitude Pruning can transfer between domains and tasks. Our experimentation shows that models that are pruned during pretraining using general domain masked language models can transfer to novel domains and tasks without extensive hyperparameter exploration or specialized approaches. We demonstrate that our general sparse model Sparse*BERT can become SparseBioBERT simply by pretraining the compressed architecture on unstructured biomedical text. Moreover, we show that SparseBioBERT can match the quality of BioBERT with only 10\% of the parameters.
arxiv情報
| 著者 | Daniel Campos,Alexandre Marques,Tuan Nguyen,Mark Kurtz,ChengXiang Zhai |
| 発行日 | 2023-03-31 22:01:44+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI