要約
BERTやRoBERTaのような事前訓練された言語モデル(PLM)は、ラベル付きデータ上で微調整された場合、自然言語理解タスクの最先端を行く。しかし、これらのモデルはサイズが大きいため、実世界のアプリケーションで推論に使用するには、GPUのメモリ要件が大きく、推論レイテンシが高いという課題がある。本論文では、構造刈り込みのためのニューラルアーキテクチャ探索(NAS)を探求し、例えばモデルサイズやレイテンシといった効率と汎化性能を最適にトレードオフする、微調整されたネットワークのサブパートを見つける。また、最近開発された2段階の重み共有NASアプローチをこの設定に利用することで、探索プロセスを高速化する方法を示す。固定された閾値を持つ従来の刈り込み手法とは異なり、パレート最適なサブネットワークの集合を特定する多目的アプローチを採用することで、より柔軟で自動化された圧縮プロセスを可能にすることを提案する。
要約(オリジナル)
Pre-trained language models (PLM), for example BERT or RoBERTa, mark the state-of-the-art for natural language understanding task when fine-tuned on labeled data. However, their large size poses challenges in deploying them for inference in real-world applications, due to significant GPU memory requirements and high inference latency. This paper explores neural architecture search (NAS) for structural pruning to find sub-parts of the fine-tuned network that optimally trade-off efficiency, for example in terms of model size or latency, and generalization performance. We also show how we can utilize more recently developed two-stage weight-sharing NAS approaches in this setting to accelerate the search process. Unlike traditional pruning methods with fixed thresholds, we propose to adopt a multi-objective approach that identifies the Pareto optimal set of sub-networks, allowing for a more flexible and automated compression process.
arxiv情報
著者 | Aaron Klein,Jacek Golebiowski,Xingchen Ma,Valerio Perrone,Cedric Archambeau |
発行日 | 2024-05-03 17:34:57+00:00 |
arxivサイト | arxiv_id(pdf) |