Practical Performance Guarantees for Pipelined DNN Inference

要約

ディープニューラルネットワーク(DNN)推論のパイプライン並列性を、モデルグラフを$k$ステージに分割し、通信を含むボトルネックステージの実行時間を最小化することで最適化する。このNP困難な問題に対する実用的で効果的なアルゴリズムを与えるが、我々が重視するのは、いつ解が十分であるかを決定するという実務家のジレンマに取り組むことである。この目的のために、下界を証明するための新しい混合整数計画法(MIP)緩和法を設計する。これらの方法を、369の生産モデルからなる多様なテストベッドに適用し、$kが$2,4,8,16,32,64}$の範囲にあるとき、これらの下界が実用上十分強いことを実証的に示す。我々の下界は標準的な組合せ論的下界よりもかなり強い。例えば、$k = 16$のパイプラインステージを持つ本番テストベッドを幾何学的手段で評価したところ、我々のMIP定式化は、発見された最良のパーティションの何分の一かで表される下界を0.4598から0.9452に引き上げた。言い換えれば、我々の改善した下界は、最適性のギャップを9.855倍縮めた。

要約(オリジナル)

We optimize pipeline parallelism for deep neural network (DNN) inference by partitioning model graphs into $k$ stages and minimizing the running time of the bottleneck stage, including communication. We give practical and effective algorithms for this NP-hard problem, but our emphasis is on tackling the practitioner’s dilemma of deciding when a solution is good enough. To this end, we design novel mixed-integer programming (MIP) relaxations for proving lower bounds. Applying these methods to a diverse testbed of 369 production models, for $k \in \{2, 4, 8, 16, 32, 64\}$, we empirically show that these lower bounds are strong enough to be useful in practice. Our lower bounds are substantially stronger than standard combinatorial bounds. For example, evaluated via geometric means across our production testbed with $k = 16$ pipeline stages, our MIP formulations raised the lower bound from 0.4598 to 0.9452, expressed as a fraction of the best partition found. In other words, our improved lower bounds closed the optimality gap by a factor of 9.855x.

arxiv情報

著者 Aaron Archer,Matthew Fahrbach,Kuikui Liu,Prakash Prabhu
発行日 2024-05-03 14:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG パーマリンク