要約
NLP システムの計算効率がますます重視されるようになり、効率的なモデル アーキテクチャの設計と、基盤となるハードウェア アクセラレータの改善が促進されています。
ただし、その結果として生じる計算スループットの向上と浮動小数点演算の削減は、実時間の推論レイテンシーの改善には直接つながりません。
これらの矛盾は主に、深層学習フレームワークによってもたらされたボトルネックに起因する可能性があることを示します。
私たちはこの現象を \textit{フレームワーク税} と呼び、時間の経過とともにハードウェアの速度が向上するにつれて、その差が拡大していることを観察します。
この研究では、モデル設計の決定、フレームワーク パラダイム、およびハードウェア プラットフォームがモデルの総遅延に及ぼす影響を分析する一連のケース スタディを通じて、この現象を検証します。
コードは https://github.com/JaredFern/Framework-Tax で入手できます。
要約(オリジナル)
Increased focus on the computational efficiency of NLP systems has motivated the design of efficient model architectures and improvements to underlying hardware accelerators. However, the resulting increases in computational throughput and reductions in floating point operations have not directly translated to improvements in wall-clock inference latency. We demonstrate that these discrepancies can be largely attributed to bottlenecks introduced by deep learning frameworks. We denote this phenomenon as the \textit{framework tax}, and observe that the disparity is growing as hardware speed increases over time. In this work, we examine this phenomenon through a series of case studies analyzing the effects of model design decisions, framework paradigms, and hardware platforms on total model latency. Code is available at https://github.com/JaredFern/Framework-Tax.
arxiv情報
著者 | Jared Fernandez,Jacob Kahn,Clara Na,Yonatan Bisk,Emma Strubell |
発行日 | 2023-12-22 17:54:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google