A Generic Performance Model for Deep Learning in a Distributed Environment

要約

深層学習アプリケーションのパフォーマンス モデリングは、モデル フレームワークの効率を向上させ、定量化するために不可欠です。
ただし、既存のパフォーマンス モデルはほとんどがケース固有であり、新しい深層学習フレームワーク/アプリケーションの機能は限られています。
この論文では、内部要因/操作 (アルゴリズム パラメーター/内部操作など) と外部スケーリング要因 (アルゴリズム パラメーター/内部操作など) の両方の影響を考慮したアプリケーション実行時間の一般的な表現を使用した、分散環境におけるアプリケーションの一般的なパフォーマンス モデルを提案します。
プロセッサの数、データチャンク、バッチサイズなど)。
これを大域最適化問題として定式化し、コスト関数の正則化と微分発展アルゴリズムを使用して解き、実験的に決定された計算時間に一致する一般式内の定数の最適値を見つけます。
提案されたモデルを 3 つの深層学習フレームワーク (TensorFlow、MXnet、Pytorch) で評価しました。
実験結果は、提案されたモデルが正確なパフォーマンス予測と解釈可能性を提供できることを示しています。
さらに、提案された研究は、コードをインストルメント化することなく任意の分散ディープ ニューラル ネットワークに適用でき、パフォーマンスとスケーラビリティに影響を与える要因についての洞察を提供します。

要約(オリジナル)

Performance modelling of a deep learning application is essential to improve and quantify the efficiency of the model framework. However, existing performance models are mostly case-specific, with limited capability for the new deep learning frameworks/applications. In this paper, we propose a generic performance model of an application in a distributed environment with a generic expression of the application execution time that considers the influence of both intrinsic factors/operations (e.g. algorithmic parameters/internal operations) and extrinsic scaling factors (e.g. the number of processors, data chunks and batch size). We formulate it as a global optimization problem and solve it using regularization on a cost function and differential evolution algorithm to find the best-fit values of the constants in the generic expression to match the experimentally determined computation time. We have evaluated the proposed model on three deep learning frameworks (i.e., TensorFlow, MXnet, and Pytorch). The experimental results show that the proposed model can provide accurate performance predictions and interpretability. In addition, the proposed work can be applied to any distributed deep neural network without instrumenting the code and provides insight into the factors affecting performance and scalability.

arxiv情報

著者 Tulasi Kavarakuntla,Liangxiu Han,Huw Lloyd,Annabel Latham,Anthony Kleerekoper,Samson B. Akintoye
発行日 2023-05-19 13:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PF パーマリンク