要約
生成 AI ワークロードの急増する需要に対応するために、GPU 設計者はこれまで、より多くのコンピューティングとメモリを単一の複雑で高価なパッケージに詰め込もうとしてきた。
ただし、最先端の GPU にはすでにパッケージング、歩留まり、冷却の限界が現れているため、個々の GPU、ひいては AI クラスターのスケーラビリティについては不確実性が高まっています。
私たちは、Lite-GPU (単一の小型ダイと大型 GPU の機能の一部を備えた GPU) の大規模クラスターを効率的に接続することで、AI クラスターの設計とスケーリングを再考することを提案します。
私たちは、共同パッケージ化された光学系の最近の進歩が、AI ワークロードをより多くの Lite-GPU に分散するという通信の課題を克服する鍵となる可能性があると考えています。
このペーパーでは、製造コスト、爆発半径、歩留まり、電力効率に関する Lite-GPU の主な利点を紹介します。
そして、リソース、ワークロード、メモリ、ネットワーク管理に関するシステムの機会と課題について話し合います。
要約(オリジナル)
To match the blooming demand of generative AI workloads, GPU designers have so far been trying to pack more and more compute and memory into single complex and expensive packages. However, there is growing uncertainty about the scalability of individual GPUs and thus AI clusters, as state-of-the-art GPUs are already displaying packaging, yield, and cooling limitations. We propose to rethink the design and scaling of AI clusters through efficiently-connected large clusters of Lite-GPUs, GPUs with single, small dies and a fraction of the capabilities of larger GPUs. We think recent advances in co-packaged optics can be key in overcoming the communication challenges of distributing AI workloads onto more Lite-GPUs. In this paper, we present the key benefits of Lite-GPUs on manufacturing cost, blast radius, yield, and power efficiency; and discuss systems opportunities and challenges around resource, workload, memory, and network management.
arxiv情報
著者 | Burcu Canakci,Junyi Liu,Xingbo Wu,Nathanaël Cheriere,Paolo Costa,Sergey Legtchenko,Dushyanth Narayanan,Ant Rowstron |
発行日 | 2025-01-17 13:32:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google