Hybrid-Parallel: Achieving High Performance and Energy Efficient Distributed Inference on Robots

要約

機械学習技術の急速な進歩により、現実世界のさまざまなロボット タスクにおいて大きな成果が得られました。
これらのタスクは、ロボットに展開された場合のディープ ニューラル ネットワーク (DNN) モデルの高速でエネルギー効率の高い推論に大きく依存します。
推論のパフォーマンスを向上させるために、分散推論が有望なアプローチとして浮上しており、データ並列処理、テンソル並列処理、パイプライン並列処理などの技術を使用して、最新のデータセンター内の複数の強力な GPU デバイス間で推論を並列化します。
しかし、現実世界のロボットに導入すると、ロボット IoT の帯域幅が限られているため、既存の並列手法では推論遅延が低く、エネルギー要件を満たすことができません。
ロボット IoT に最適化された高性能分散推論システムである Hybrid-Parallel を紹介します。
ハイブリッド並列は、DNN 層内のローカル演算子 (つまり、畳み込み層の畳み込みカーネルなど、部分入力で独立して計算できる演算子) の粒度で推論を並列化するためのきめの細かいアプローチを採用しています。
これにより、ハイブリッド並列では、異なる層の異なる演算子を同時に計算して送信し、同じ推論タスク内で計算フェーズと送信フェーズをオーバーラップさせることができます。
この評価では、ハイブリッド並列により、最先端のベースラインと比較して、推論時間が 14.9% ~ 41.1% 削減され、推論あたりのエネルギー消費が最大 35.3% 削減されることが実証されました。

要約(オリジナル)

The rapid advancements in machine learning techniques have led to significant achievements in various real-world robotic tasks. These tasks heavily rely on fast and energy-efficient inference of deep neural network (DNN) models when deployed on robots. To enhance inference performance, distributed inference has emerged as a promising approach, parallelizing inference across multiple powerful GPU devices in modern data centers using techniques such as data parallelism, tensor parallelism, and pipeline parallelism. However, when deployed on real-world robots, existing parallel methods fail to provide low inference latency and meet the energy requirements due to the limited bandwidth of robotic IoT. We present Hybrid-Parallel, a high-performance distributed inference system optimized for robotic IoT. Hybrid-Parallel employs a fine-grained approach to parallelize inference at the granularity of local operators within DNN layers (i.e., operators that can be computed independently with the partial input, such as the convolution kernel in the convolution layer). By doing so, Hybrid-Parallel enables different operators of different layers to be computed and transmitted concurrently, and overlap the computation and transmission phases within the same inference task. The evaluation demonstrate that Hybrid-Parallel reduces inference time by 14.9% ~41.1% and energy consumption per inference by up to 35.3% compared to the state-of-the-art baselines.

arxiv情報

著者 Zekai Sun,Xiuxian Guan,Junming Wang,Haoze Song,Yuhao Qing,Tianxiang Shen,Dong Huang,Fangming Liu,Heming Cui
発行日 2024-05-29 16:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.RO パーマリンク