MUX-PLMs: Pre-training Language Models with Data Multiplexing

要約

データの多重化は、順序付けられた表現の混合を使用して複数のインスタンスを同時に処理することにより、モデルの推論効率を向上させるために最近提案された方法です。
データの多重化に関する以前の作業では、事前トレーニングなしでタスク固有のトランスフォーマーのみを使用していたため、精度と汎用性が制限されていました。
このホワイト ペーパーでは、あらゆるダウンストリーム タスクで幅広く微調整できる事前トレーニング済みの多重化言語モデル (MUX-PLM) を開発します。
私たちのアプローチには、3 段階のトレーニング手順と、スループットとダウンストリーム タスクの精度を向上させるための新しい多重化および逆多重化モジュールが含まれています。
MUX-BERT および MUX-ELECTRA モデルを使用して、BERT および ELECTRA のトレーニング前の目的でメソッドを示します。2 倍/5 倍の推論スピードアップを達成し、GLUE では絶対性能が 2 ~ 4 \% 低下し、絶対性能は 1 ~ 2 \% 低下します。
トークンレベルのタスク。

要約(オリジナル)

Data multiplexing is a recently proposed method for improving a model’s inference efficiency by processing multiple instances simultaneously using an ordered representation mixture. Prior work on data multiplexing only used task-specific Transformers without any pre-training, which limited their accuracy and generality. In this paper, we develop pre-trained multiplexed language models (MUX-PLMs) that can be widely finetuned on any downstream task. Our approach includes a three-stage training procedure and novel multiplexing and demultiplexing modules for improving throughput and downstream task accuracy. We demonstrate our method on BERT and ELECTRA pre-training objectives, with our MUX-BERT and MUX-ELECTRA models achieving 2x/5x inference speedup with a 2-4 \% drop in absolute performance on GLUE and 1-2 \% drop on token-level tasks.

arxiv情報

著者 Vishvak Murahari,Ameet Deshpande,Carlos E. Jimenez,Izhak Shafran,Mingqiu Wang,Yuan Cao,Karthik Narasimhan
発行日 2023-02-24 04:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク