要約
【タイトル】TPU v4:機械学習のための光再構成可能なスーパーコンピューター
【要約】
– TPU v4は、機械学習(ML)モデルの革新に対応して、Googleの5つ目のドメイン固有アーキテクチャ(DSA)であり、MLモデルのための3つ目のスーパーコンピューターです。
– 光回路スイッチ(OCS)は、インターコネクトトポロジーを動的に再構成して、スケーラビリティ、可用性、利用率、モジュラリティ、展開、セキュリティ、電力、パフォーマンスを改善します。必要に応じて、ツイスト3Dトーラストポロジーを選択することもできます。
– OCSおよびその基盤となる光コンポーネントは、Infinibandよりもはるかに安価で、低電力であり、高速です。システムコストの<5%、システム電力の<3%です。
- 各TPU v4にはSparseCoresが含まれており、埋め込みを必要とするモデルを5x-7x高速化しますが、ダイエリアと電力のわずか5%しか使用しません。
- 2020年以降、TPU v4はTPU v3を2.1倍上回り、パフォーマンス/ワットを2.7倍向上させました。TPU v4スーパーコンピューターは、4096個のチップで構成され、全体的に約10倍高速であり、OCSの柔軟性とともに大規模言語モデルの開発を支援します。
- 同等のサイズのシステムに対して、TPU v4はGraphcore IPU Bowよりも約4.3~4.5倍速く、Nvidia A100よりも1.2~1.7倍速く、1.3倍~1.9倍少ない電力を消費します。
- Google Cloudのエネルギー最適化された倉庫スケールコンピューター内のTPU v4は、Typical on-premiseデータセンターの現代的なDSAよりも約3倍少ないエネルギーを消費し、CO2eを約20倍少なく排出します。
要約(オリジナル)
In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. TPU v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. Optical circuit switches (OCSes) dynamically reconfigure its interconnect topology to improve scale, availability, utilization, modularity, deployment, security, power, and performance; users can pick a twisted 3D torus topology if desired. Much cheaper, lower power, and faster than Infiniband, OCSes and underlying optical components are <5% of system cost and <3% of system power. Each TPU v4 includes SparseCores, dataflow processors that accelerate models that rely on embeddings by 5x-7x yet use only 5% of die area and power. Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips and thus ~10x faster overall, which along with OCS flexibility helps large language models. For similar sized systems, it is ~4.3x-4.5x faster than the Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers of Google Cloud use ~3x less energy and produce ~20x less CO2e than contemporary DSAs in a typical on-premise data center.
arxiv情報
著者 | Norman P. Jouppi,George Kurian,Sheng Li,Peter Ma,Rahul Nagarajan,Lifeng Nai,Nishant Patil,Suvinay Subramanian,Andy Swing,Brian Towles,Cliff Young,Xiang Zhou,Zongwei Zhou,David Patterson |
発行日 | 2023-04-20 22:25:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI