RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs

要約

タイトル: RESPECT:パイプライン化されたCoral Edge TPU上での強化学習ベースのエッジスケジューリング

要約:
– DNNは、計算とメモリの要件が大きく、その計算グラフのコンパイルは、リソース制約型(計算、I/O、メモリに制約がある)のエッジコンピューティングシステムのパフォーマンスに大きな影響を与えます。
– 効率的な計算グラフの実行には、効果的なスケジューリングアルゴリズムが必要ですが、最適なスケジューリングソリューションを生成することは、課題であるNP困難な問題です。
– さらに、DNNの計算グラフをスケジューリングする複雑さは、パイプライン化されたマルチコアシステムにおいてはメモリ通信コストとDNNのサイズの増加を考慮すると、さらに増加するでしょう。
– この論文は、トレーニングデータセットの合成グラフを使用して、最適最適化アルゴリズムの動作を学習し、短い解決ランタイムオーバーヘッドで近似最適スケジューリング結果を生成する強化学習(RL)ベースのスケジューリングフレームワークRESPECTを提供しています。
– このフレームワークは、物理的なCoral Edge TPUシステムに展開された10の人気のあるImageNetモデルによると、商用コンパイラに比べて、実世界で最大約2.5倍のチップ内推論ランタイムの高速化を実証しています。
– さらに、提案されたRLスケジューリングは、商用コンパイラに比べてスケジューリング最適化のランタイムを最大683倍高速化し、最適解と最大930倍高速化で一致するというメリットがあります。
– 最後に、小規模な合成グラフから大規模な実世界のDNNの計算グラフに対して、RESPECTが最適解探索の振る舞いを成功裏に模倣することを示す包括的な汎化テストを実施しています。

要約(オリジナル)

Deep neural networks (DNNs) have substantial computational and memory requirements, and the compilation of its computational graphs has a great impact on the performance of resource-constrained (e.g., computation, I/O, and memory-bound) edge computing systems. While efficient execution of their computational graph requires an effective scheduling algorithm, generating the optimal scheduling solution is a challenging NP-hard problem. Furthermore, the complexity of scheduling DNN computational graphs will further increase on pipelined multi-core systems considering memory communication cost, as well as the increasing size of DNNs. Using the synthetic graph for the training dataset, this work presents a reinforcement learning (RL) based scheduling framework RESPECT, which learns the behaviors of optimal optimization algorithms and generates near-optimal scheduling results with short solving runtime overhead. Our framework has demonstrated up to $\sim2.5\times$ real-world on-chip inference runtime speedups over the commercial compiler with ten popular ImageNet models deployed on the physical Coral Edge TPUs system. Moreover, compared to the exact optimization methods, the proposed RL scheduling improves the scheduling optimization runtime by up to 683$\times$ speedups compared to the commercial compiler and matches the exact optimal solutions with up to 930$\times$ speedups. Finally, we perform a comprehensive generalizability test, which demonstrates RESPECT successfully imitates optimal solving behaviors from small synthetic graphs to large real-world DNNs computational graphs.

arxiv情報

著者 Jiaqi Yin,Yingjie Li,Daniel Robinson,Cunxi Yu
発行日 2023-04-10 17:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.AR, cs.LG パーマリンク