Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture

要約

テンソル プロセッシング ユニット (TPU) は、データ センターや小規模な ML アプリケーションで大規模に利用される最もよく知られた機械学習 (ML) アクセラレータの 1 つです。
TPU は、グラフィカル プロセッシング ユニット (GPU) などの従来の ML アクセラレータに比べて、いくつかの改善点と利点を提供します。TPU は、深層学習の実行中に広範囲に存在する行列-行列乗算および行列-ベクトル乗算で必要な積和演算 (MAC) を実行するように特別に設計されています。
ニューラル ネットワーク (DNN)。
このような改善には、シストリック アレイ アーキテクチャによって提供される時間データフロー パラダイムを活用することによる、データの再利用の最大化とデータ転送の最小化が含まれます。
この設計はパフォーマンスに大きな利点をもたらしますが、現在の実装は、入力、出力、または重み定常アーキテクチャのいずれかで構成される単一のデータフローに制限されています。
これにより、DNN 推論の達成可能なパフォーマンスが制限され、計算ユニットの使用率が低下する可能性があります。
したがって、ここでの作業は、実行時に層ごとのデータフローを動的に変更できる、Flex-TPU と呼ばれる再構成可能なデータフロー TPU の開発で構成されます。
私たちの実験では、複数のよく知られた ML ワークロードにわたって、Flex-TPU の実行可能性を従来の TPU 設計と比較して徹底的にテストしています。
結果は、当社の Flex-TPU 設計が、面積と電力のオーバーヘッドがわずかでありながら、従来の TPU と比較して最大 2.75 倍の大幅なパフォーマンス向上を達成していることを示しています。

要約(オリジナル)

Tensor processing units (TPUs) are one of the most well-known machine learning (ML) accelerators utilized at large scale in data centers as well as in tiny ML applications. TPUs offer several improvements and advantages over conventional ML accelerators, like graphical processing units (GPUs), being designed specifically to perform the multiply-accumulate (MAC) operations required in the matrix-matrix and matrix-vector multiplies extensively present throughout the execution of deep neural networks (DNNs). Such improvements include maximizing data reuse and minimizing data transfer by leveraging the temporal dataflow paradigms provided by the systolic array architecture. While this design provides a significant performance benefit, the current implementations are restricted to a single dataflow consisting of either input, output, or weight stationary architectures. This can limit the achievable performance of DNN inference and reduce the utilization of compute units. Therefore, the work herein consists of developing a reconfigurable dataflow TPU, called the Flex-TPU, which can dynamically change the dataflow per layer during run-time. Our experiments thoroughly test the viability of the Flex-TPU comparing it to conventional TPU designs across multiple well-known ML workloads. The results show that our Flex-TPU design achieves a significant performance increase of up to 2.75x compared to conventional TPU, with only minor area and power overheads.

arxiv情報

著者 Mohammed Elbtity,Peyton Chandarana,Ramtin Zand
発行日 2024-07-11 17:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG, cs.PF パーマリンク