Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference

要約

トランスベースのモデルは、スマート ホームの音声アシスタントなど、エッジで強力なインテリジェント アプリケーションを数多く実現します。
従来の展開アプローチでは、推論ワークロードがリモート クラウド サーバーにオフロードされるため、バックボーン ネットワークに大きな負荷がかかるだけでなく、ユーザーのプライバシーに関する懸念も生じます。
これに対処するために、現場推論は最近エッジ インテリジェンスとして認識されてきましたが、集中的なワークロードと限られたオンデバイス コンピューティング リソースの間の矛盾から生じる重大な課題に依然として直面しています。
この論文では、多くのエッジ環境は通常、アイドル状態のリソースを備えた豊富な付属の信頼できるエッジ デバイスで構成されているという観察を活用し、効率的な Transformer 推論の高速化のために、異種エッジ デバイス間のリソースの壁を打ち破る協調的なエッジ AI システムである Galaxy を提案します。
Galaxy は、リソースの可能性を最大限に活用するための異種混合を意識した並列処理計画とともに、協調的な推論を調整するための新しいハイブリッド モデル並列処理を導入しています。
さらに、Galaxy は、帯域幅に制約のあるエッジ環境下での推論レイテンシーに対するテンソル同期の影響を軽減するために、タイルベースのきめ細かい通信と計算のオーバーラップを考案しています。
プロトタイプの実装に基づく広範な評価により、Galaxy はさまざまなエッジ環境設定下で最先端のアプローチを著しく上回り、最大 2.5 倍のエンドツーエンド遅延削減を達成することが実証されました。

要約(オリジナル)

Transformer-based models have unlocked a plethora of powerful intelligent applications at the edge, such as voice assistant in smart home. Traditional deployment approaches offload the inference workloads to the remote cloud server, which would induce substantial pressure on the backbone network as well as raise users’ privacy concerns. To address that, in-situ inference has been recently recognized for edge intelligence, but it still confronts significant challenges stemming from the conflict between intensive workloads and limited on-device computing resources. In this paper, we leverage our observation that many edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources and propose Galaxy, a collaborative edge AI system that breaks the resource walls across heterogeneous edge devices for efficient Transformer inference acceleration. Galaxy introduces a novel hybrid model parallelism to orchestrate collaborative inference, along with a heterogeneity-aware parallelism planning for fully exploiting the resource potential. Furthermore, Galaxy devises a tile-based fine-grained overlapping of communication and computation to mitigate the impact of tensor synchronizations on inference latency under bandwidth-constrained edge environments. Extensive evaluation based on prototype implementation demonstrates that Galaxy remarkably outperforms state-of-the-art approaches under various edge environment setups, achieving up to 2.5x end-to-end latency reduction.

arxiv情報

著者 Shengyuan Ye,Jiangsu Du,Liekang Zeng,Wenzhong Ou,Xiaowen Chu,Yutong Lu,Xu Chen
発行日 2024-05-27 15:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.NI パーマリンク