Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces

要約

ベンチマークと共同設計は、ML モデル、ML ソフトウェア、次世代ハードウェアに関する最適化とイノベーションを推進するために不可欠です。
完全なワークロードのベンチマーク。
MLPerf は、特にシステムが完全に設計され展開された後は、さまざまなソフトウェアおよびハードウェア スタック間の公平な比較を可能にする上で重要な役割を果たします。
ただし、AI イノベーションのペースにより、将来のシステムの共同設計に向けて、シミュレーターやエミュレーターによる作成と使用のベンチマークを行うための、より俊敏な方法論が求められています。
私たちは、実行トレース (ET) とも呼ばれる、主要な操作と依存関係をキャプチャするワークロード仕様を標準化するためのオープン グラフ スキーマである Chakra を提案します。
さらに、さまざまなシミュレーター、エミュレーター、ベンチマークによるチャクラ ET の収集、生成、採用を可能にする補完的なツール/機能のセットを提案します。
たとえば、私たちは生成 AI モデルを使用して、数千のチャクラ ET にわたる潜在的な統計的特性を学習し、これらのモデルを使用してチャクラ ET を合成します。
これらの合成 ET は、重要な機密情報を難読化し、将来の what-if シナリオをターゲットにすることもできます。
例として、PyTorch ET を Chakra ET に変換し、これを使用してオープンソース トレーニング システム シミュレーター (ASTRA-sim) を駆動するエンドツーエンドの概念実証を示します。
私たちの最終目標は、将来の AI システムの共同設計を推進するためのアジャイル ベンチマークとツールの活気に満ちた業界全体のエコシステムを構築することです。

要約(オリジナル)

Benchmarking and co-design are essential for driving optimizations and innovation around ML models, ML software, and next-generation hardware. Full workload benchmarks, e.g. MLPerf, play an essential role in enabling fair comparison across different software and hardware stacks especially once systems are fully designed and deployed. However, the pace of AI innovation demands a more agile methodology to benchmark creation and usage by simulators and emulators for future system co-design. We propose Chakra, an open graph schema for standardizing workload specification capturing key operations and dependencies, also known as Execution Trace (ET). In addition, we propose a complementary set of tools/capabilities to enable collection, generation, and adoption of Chakra ETs by a wide range of simulators, emulators, and benchmarks. For instance, we use generative AI models to learn latent statistical properties across thousands of Chakra ETs and use these models to synthesize Chakra ETs. These synthetic ETs can obfuscate key proprietary information and also target future what-if scenarios. As an example, we demonstrate an end-to-end proof-of-concept that converts PyTorch ETs to Chakra ETs and uses this to drive an open-source training system simulator (ASTRA-sim). Our end-goal is to build a vibrant industry-wide ecosystem of agile benchmarks and tools to drive future AI system co-design.

arxiv情報

著者 Srinivas Sridharan,Taekyung Heo,Louis Feng,Zhaodong Wang,Matt Bergeron,Wenyin Fu,Shengbao Zheng,Brian Coutinho,Saeed Rashidi,Changhai Man,Tushar Krishna
発行日 2023-05-26 16:22:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク