Latency Adjustable Transformer Encoder for Language Understanding

要約

自然言語理解モデルの遅延、消費電力、精度を調整することは、効率的なアーキテクチャの望ましい目的である。本稿では、推論レイテンシを高速化しながら、推論計算コストを適応的に調整する効率的なTransformerアーキテクチャを提案する。微調整段階において、提案手法は、提案するAttention Context Contribution (ACC)指標を用いて、重要度の低い隠れ配列要素(単語ベクトル)を検出し、各エンコーダ層でそれらを除去する。微調整段階後、新奇なオフラインチューニング特性により、モデルの推論レイテンシは、更なる学習なしに、幅広い推論高速化選択範囲で調整することができる。提案手法をBERT_base, GPT-2, Flan-T5モデルに適用し、評価を行った。広範な実験により、上位のTransformer層における単語ベクトルの大部分は、後続の層への寄与が少ないことが示された。広範なセンチメント分析、分類、テキスト生成タスク、GLUEのような回帰ベンチマークの実験結果から、本方法は様々なデータセットにおいて、入力のグローバルコンテキストへの影響を最小限に抑えながら有効であることが示された。また、本方法は命令チューニングパラダイム下でも評価され、様々なタイプのプロンプトを用いてその性能が測定された。提案手法は、数学的にも実験的にも、BERT_baseとGPT-2の推論待ち時間を最大で4.8倍と3.72倍改善し、平均で0.75%未満の精度低下と合格点の当惑度を実現した。提案されたアプローチは、大規模言語モデル(LLM)において、学習には完全なネットワークが必要であるが、微調整の段階では切り捨てることができると仮定している。

要約(オリジナル)

Adjusting the latency, power, and accuracy of natural language understanding models is a desirable objective of an efficient architecture. This paper proposes an efficient Transformer architecture that adjusts the inference computational cost adaptively with a desired inference latency speedup. In fine-tuning phase, the proposed method detects less important hidden sequence elements (word-vectors) and eliminates them in each encoder layer using a proposed Attention Context Contribution (ACC) metric. After the fine-tuning phase, with the novel offline-tuning property, the inference latency of the model can be adjusted in a wide range of inference speedup selections without any further training. The proposed method is applied to the BERT_base, GPT-2 and Flan-T5 models for evaluation. Extensive experiments show that most of the word-vectors in higher Transformer layers have less contribution to the subsequent layers; hence, they can be eliminated to improve the inference latency. Experimental results on extensive sentiment analysis, classification, text generation tasks and regression benchmarks like GLUE showed that the method is effective in various datasets with minimal impact on the input’s global context. The method was also evaluated under the instruction tuning paradigm, and its performance was measured using different types of prompting. The proposed method mathematically and experimentally improves the inference latency of BERT_base and GPT-2 by up to 4.8 and 3.72 times with less than 0.75% accuracy drop and passable perplexity on average. The suggested approach posits that in Large Language Models (LLMs), although the complete network is necessary for training, it can be truncated during the fine-tuning phase.

arxiv情報

著者 Sajjad Kachuee,Mohammad Sharifkhani
発行日 2024-06-03 14:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク