Latency Adjustable Transformer Encoder for Language Understanding

要約

自然言語理解モデルのレイテンシ、パワー、精度を調整することは、効率的なアーキテクチャの望ましい目標です。
この論文では、望ましい推論レイテンシーの高速化に合わせて推論の計算コストを適応的に調整する効率的な Transformer アーキテクチャを提案します。
微調整フェーズでは、提案された方法は、提案されたアテンション コンテキスト コントリビューション (ACC) メトリクスを使用して、重要度の低い隠れシーケンス要素 (ワード ベクトル) を検出し、各エンコーダ層でそれらを削除します。
微調整フェーズの後は、新しいオフライン調整プロパティを使用して、さらなるトレーニングを行わなくても、モデルの推論レイテンシを幅広い推論高速化の選択で調整できます。
提案手法を BERT ベースモデルと GPT-2 モデルに適用して評価します。
広範な実験により、上位の Transformer 層にあるワード ベクトルのほとんどは、後続の層への寄与が少ないことが示されています。
したがって、推論の待ち時間を改善するためにそれらを削除できます。
広範なセンチメント分析、分類、テキスト生成タスク、および GLUE などの回帰ベンチマークに関する実験結果では、この手法がグローバル コンテキストへの影響を最小限に抑えながら、さまざまなデータセットで有効であることが示されました。
提案された方法は、数学的および実験的に、BERT ベースと GPT-2 の推論レイテンシーを最大 4.8 倍および 3.72 倍改善し、平均で 0.75% 未満の精度低下と許容範囲内のパープレキシティを実現します。
提案されたアプローチでは、大規模言語モデル (LLM) では、完全なネットワークがトレーニングに必要であるにもかかわらず、微調整フェーズ中に切り捨てられる可能性があると仮定しています。

要約(オリジナル)

Adjusting the latency, power, and accuracy of natural language understanding models is a desirable objective of an efficient architecture. This paper proposes an efficient Transformer architecture that adjusts the inference computational cost adaptively with a desired inference latency speedup. In fine-tuning phase, the proposed method detects less important hidden sequence elements (word-vectors) and eliminates them in each encoder layer using a proposed Attention Context Contribution (ACC) metric. After the fine-tuning phase, with the novel offline-tuning property, the inference latency of the model can be adjusted in a wide range of inference speedup selections without any further training. The proposed method is applied to the BERT-base and GPT-2 models for evaluation. Extensive experiments show that most of the word-vectors in higher Transformer layers have less contribution to the subsequent layers; hence, they can be eliminated to improve the inference latency. Experimental results on extensive sentiment analysis, classification, text generation tasks and regression benchmarks like GLUE showed that the method is effective in various datasets with minimal impact on global context. The proposed method mathematically and experimentally improves the inference latency of BERT-base and GPT-2 by up to 4.8 and 3.72 times with less than 0.75% accuracy drop and passable perplexity on average. The suggested approach posits that in Large Language Models (LLMs), although the complete network is necessary for training, it can be truncated during the fine-tuning phase.

arxiv情報

著者 Sajjad Kachuee,Mohammad Sharifkhani
発行日 2023-12-20 17:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク