Robustness Challenges in Model Distillation and Pruning for Natural Language Understanding

要約

最近の作業は、BERT のような事前トレーニング済み言語モデル (PLM) の圧縮に焦点を当てており、主な焦点は、ダウンストリーム タスクのディストリビューション内のパフォーマンスを向上させることでした。
ただし、これらの研究のうち、分布外 (OOD) データの圧縮モデルの一般化可能性と堅牢性に対する圧縮の影響を分析した研究はほとんどありません。
この目的に向けて、知識の蒸留とプルーニングを含む 2 つの一般的なモデル圧縮手法を研究し、圧縮されたモデルは OOD テスト セットで対応する PLM よりも大幅に堅牢性が低いことを示しますが、タスクの分散開発セットでは同様のパフォーマンスが得られます。
さらに分析すると、圧縮されたモデルはショートカット サンプルではオーバーフィットし、ハード サンプルでは一般化が不十分であることがわかります。
この観察結果をさらに活用して、サンプルの不確実性に基づいた堅牢なモデル圧縮のための正則化戦略を開発します。
いくつかの自然言語理解タスクに関する実験結果は、バイアス軽減フレームワークが、分散内タスクのパフォーマンスを犠牲にすることなく、圧縮モデルの OOD 一般化を改善することを示しています。

要約(オリジナル)

Recent work has focused on compressing pre-trained language models (PLMs) like BERT where the major focus has been to improve the in-distribution performance for downstream tasks. However, very few of these studies have analyzed the impact of compression on the generalizability and robustness of compressed models for out-of-distribution (OOD) data. Towards this end, we study two popular model compression techniques including knowledge distillation and pruning and show that the compressed models are significantly less robust than their PLM counterparts on OOD test sets although they obtain similar performance on in-distribution development sets for a task. Further analysis indicates that the compressed models overfit on the shortcut samples and generalize poorly on the hard ones. We further leverage this observation to develop a regularization strategy for robust model compression based on sample uncertainty. Experimental results on several natural language understanding tasks demonstrate that our bias mitigation framework improves the OOD generalization of the compressed models, while not sacrificing the in-distribution task performance.

arxiv情報

著者 Mengnan Du,Subhabrata Mukherjee,Yu Cheng,Milad Shokouhi,Xia Hu,Ahmed Hassan Awadallah
発行日 2023-02-27 03:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク