Graph Neural Networks Automated Design and Deployment on Device-Edge Co-Inference Systems

要約

デバイス エッジの協調推論パラダイムの鍵は、モデルをデバイスとエッジでそれぞれ計算に適した部分と計算集約的な部分に分割することです。
ただし、グラフ ニューラル ネットワーク (GNN) の場合、異種デバイス上での GNN 操作のさまざまな計算通信オーバーヘッドのため、その構造を変更せずに単に分割するだけでは、共推論パラダイムの可能性を最大限に発揮することはほとんどできないことがわかりました。
アーキテクチャ検索とデバイス エッジ階層上の各操作のマッピングを革新的に共同設計する、GNN 用の最初の自動フレームワークである GCoDE を紹介します。
GCoDE は、デバイスの通信プロセスを明示的な操作に抽象化し、アーキテクチャの検索と操作のマッピングを統合空間で融合して共同最適化します。
また、GCoDE の制約ベースの検索プロセスで利用されるパフォーマンス認識アプローチにより、多様な異種システムにおけるアーキテクチャ効率の効果的な評価が可能になります。
デプロイ効率を高めるために、GCoDE に協調推論エンジンとランタイム ディスパッチャを実装します。
実験結果によると、GCoDE はさまざまなアプリケーションやシステム構成にわたって、既存のアプローチと比較して最大 44.9 倍の高速化と 98.2 %% のエネルギー削減を達成できます。

要約(オリジナル)

The key to device-edge co-inference paradigm is to partition models into computation-friendly and computation-intensive parts across the device and the edge, respectively. However, for Graph Neural Networks (GNNs), we find that simply partitioning without altering their structures can hardly achieve the full potential of the co-inference paradigm due to various computational-communication overheads of GNN operations over heterogeneous devices. We present GCoDE, the first automatic framework for GNN that innovatively Co-designs the architecture search and the mapping of each operation on Device-Edge hierarchies. GCoDE abstracts the device communication process into an explicit operation and fuses the search of architecture and the operations mapping in a unified space for joint-optimization. Also, the performance-awareness approach, utilized in the constraint-based search process of GCoDE, enables effective evaluation of architecture efficiency in diverse heterogeneous systems. We implement the co-inference engine and runtime dispatcher in GCoDE to enhance the deployment efficiency. Experimental results show that GCoDE can achieve up to $44.9\times$ speedup and $98.2\%$ energy reduction compared to existing approaches across various applications and system configurations.

arxiv情報

著者 Ao Zhou,Jianlei Yang,Tong Qiao,Yingjie Qi,Zhi Yang,Weisheng Zhao,Chunming Hu
発行日 2024-04-08 15:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク