SpeedLimit: Neural Architecture Search for Quantized Transformer Models

要約

変圧器モデルの分野の研究は主に精度や複雑さなどのパフォーマンス指標の強化に焦点を当ててきましたが、産業界での実際の応用では推論レイテンシの制約を厳密に考慮することが必要になることがよくあります。
この課題に対処するために、レイテンシの上限制約を遵守しながら精度を最適化する新しいニューラル アーキテクチャ検索 (NAS) 技術である SpeedLimit を導入します。
私たちの手法は、検索プロセスに 8 ビットの整数量子化を組み込んでおり、現在の最先端の手法よりも優れた性能を発揮します。
私たちの結果は、パフォーマンスと遅延の間の最適なバランスを追求することの実現可能性と有効性を強調し、遅延に敏感な環境に最先端のトランスフォーマー モデルを導入するための新しい手段を提供します。

要約(オリジナル)

While research in the field of transformer models has primarily focused on enhancing performance metrics such as accuracy and perplexity, practical applications in industry often necessitate a rigorous consideration of inference latency constraints. Addressing this challenge, we introduce SpeedLimit, a novel Neural Architecture Search (NAS) technique that optimizes accuracy whilst adhering to an upper-bound latency constraint. Our method incorporates 8-bit integer quantization in the search process to outperform the current state-of-the-art technique. Our results underline the feasibility and efficacy of seeking an optimal balance between performance and latency, providing new avenues for deploying state-of-the-art transformer models in latency-sensitive environments.

arxiv情報

著者 Yuji Chai,Luke Bailey,Yunho Jin,Matthew Karle,Glenn G. Ko,David Brooks,Gu-Yeon Wei,H. T. Kung
発行日 2023-10-13 17:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク