BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits

要約

トランスフォーマーに基づく大規模言語モデル (LLM) は、さまざまなアプリケーションで最先端の結果を実現します。
ただし、その巨大なサイズと処理要件により、リソースに制約のあるデバイスへの展開が非常に困難になります。
さまざまな効率に関する考慮事項の中でも、モデルの二値化と早期終了 (EE) は一般的に効果的なソリューションです。
ただし、2 値化は、勾配推定とパラメーターの更新に影響を与える精度の低下により、パフォーマンスの低下につながる可能性があります。
さらに、現在の早期離脱メカニズムはまだ研究の初期段階にあります。
これらの問題を改善するために、テキスト推論のために早期終了と二値化を組み合わせる史上初の選択学習トランスフォーマー アーキテクチャである Binarized Early Exit Transformer (BEExformer) を提案します。
インパルス関数の微分可能な二次近似を通じて二値化プロセスを改善します。
これにより、重みの符号と大きさの両方に関する勾配計算が可能になります。
絶対閾値ベースの EE とは対照的に、提案された EE メカニズムは、ソフト配線損失推定による中間変圧器ブロック間のエントロピーの部分的な削減に依存します。
2 値化によりモデル サイズが 18.44 分の 1 に削減されますが、早期終了により推論中の FLOP が 54.85% 削減され、ディープ ネットワークに固有の「考えすぎ」問題が解決されることで精度が 5.98% 向上します。
さらに、提案された BEExformer は、完全精度 LLM からの知識の抽出を必要としないため、トレーニングが簡素化されます。
GLUE データセットの広範な評価と SOTA 作品との比較により、パレート最適なパフォーマンスと効率のトレードオフが明らかになります。

要約(オリジナル)

Large Language Models (LLMs) based on transformers achieve cutting-edge results on a variety of applications. However, their enormous size and processing requirements make deployment on devices with constrained resources extremely difficult. Among various efficiency considerations, model binarization and Early Exit (EE) are common effective solutions. However, binarization may lead to performance loss due to reduced precision affecting gradient estimation and parameter updates. Besides, the present early-exit mechanisms are still in the nascent stages of research. To ameliorate these issues, we propose Binarized Early Exit Transformer (BEExformer), the first-ever selective learning transformer architecture to combine early exit with binarization for textual inference. It improves the binarization process through a differentiable second-order approximation to the impulse function. This enables gradient computation concerning both the sign as well as the magnitude of the weights. In contrast to absolute threshold-based EE, the proposed EE mechanism hinges on fractional reduction in entropy among intermediate transformer blocks with soft-routing loss estimation. While binarization results in 18.44 times reduction in model size, early exit reduces the FLOPs during inference by 54.85% and even improves accuracy by 5.98% through resolving the ‘overthinking’ problem inherent in deep networks. Moreover, the proposed BEExformer simplifies training by not requiring knowledge distillation from a full-precision LLM. Extensive evaluation on the GLUE dataset and comparison with the SOTA works showcase its pareto-optimal performance-efficiency trade-off.

arxiv情報

著者 Wazib Ansar,Saptarsi Goswami,Amlan Chakrabarti
発行日 2024-12-06 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NE パーマリンク