TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings

要約

【タイトル】TPU v4: ハードウェア埋め込みサポート付きの機械学習のための光再構成可能なスーパーコンピュータ

【要約】

– TPU v4は、機械学習(ML)モデルの革新に対応して、生産ワークロードが急激に変化したことに応えるために開発されたもので、Googleドメイン固有アーキテクチャ(DSA)の第5世代であり、MLモデル向けの第3世代スーパーコンピューターである。
– 光回路スイッチ(OCS)は、相互接続のトポロジーを動的に再構成することで、スケール、可用性、利用、モジュラリティ、デプロイメント、セキュリティ、電力、パフォーマンスを改善する。ユーザーは、必要に応じてねじれた3Dトーラストポロジーを選択できる。
– OCSと基本的な光学部品は各システムコストの<5%、システム電力の<3%で、インフィニバンドに比べて安価で低電力かつ高速である。 - 各TPU v4にはSparseCoresが含まれており、組み込みに依存するモデルを5x-7x加速し、しかしながらdieエリアと電力の5%のみを使用するデータフロープロセッサも使用できる。 - 2020年以降、TPU v4はTPU v3を2.1倍上回り、パフォーマンス/Wattは2.7倍向上している。 - TPU v4スーパーコンピューターは4096チップで4倍大きくなり、OCSの柔軟性とともに大規模言語モデルの開発を支援する。 - 同じサイズのシステムに対しては、Graphcore IPU Bowよりも約4.3倍〜4.5倍高速であり、Nvidia A100よりも1.2倍〜1.7倍高速で、1.3倍〜1.9倍少ない電力を使用する。 - Google Cloudの省エネ型倉庫スケールコンピュータ内のTPU v4は、典型的なオンプレミスデータセンターの現代的なDSAに比べて、約3倍のエネルギーを使用し、約20倍少ないCO2eを生成する。

要約(オリジナル)

In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. TPU v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. Optical circuit switches (OCSes) dynamically reconfigure its interconnect topology to improve scale, availability, utilization, modularity, deployment, security, power, and performance; users can pick a twisted 3D torus topology if desired. Much cheaper, lower power, and faster than Infiniband, OCSes and underlying optical components are <5% of system cost and <3% of system power. Each TPU v4 includes SparseCores, dataflow processors that accelerate models that rely on embeddings by 5x-7x yet use only 5% of die area and power. Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips and thus ~10x faster overall, which along with OCS flexibility helps large language models. For similar sized systems, it is ~4.3x-4.5x faster than the Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers of Google Cloud use ~3x less energy and produce ~20x less CO2e than contemporary DSAs in a typical on-premise data center.

arxiv情報

著者 Norman P. Jouppi,George Kurian,Sheng Li,Peter Ma,Rahul Nagarajan,Lifeng Nai,Nishant Patil,Suvinay Subramanian,Andy Swing,Brian Towles,Cliff Young,Xiang Zhou,Zongwei Zhou,David Patterson
発行日 2023-04-10 14:50:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PF パーマリンク