HawkVision: Low-Latency Modeless Edge AI Serving

要約

モードレス ML 推論のトレンドは、モデル推論の複雑さをユーザーから隠し、ユーザーとアプリケーションの多様な精度要件に応えるため、ますます人気が高まっています。
これまでの研究は主に、データセンターにおけるモードレス推論に焦点を当てていました。
低遅延の推論を提供するために、このホワイトペーパーではエッジでのモードレス推論を推進します。
エッジ環境では、低消費電力、限られたデバイス メモリ、および不安定なネットワーク環境に関連するさらなる課題が生じます。
これらの課題に対処するために、ビジョン DNN の低遅延モードレス サービスを提供する HawkVision を提案します。
HawkVision は、信頼性スケーリングを採用した 2 層エッジ DC アーキテクチャを活用して、さまざまな精度要件を満たしながらモデル オプションの数を削減します。
不安定なネットワーク環境下での非可逆推論もサポートします。
私たちの実験結果は、HawkVision がモードレス サービスを提供する際の P99 遅延において、現在のサービス システムよりも最大 1.6 倍優れていることを示しています。
当社の FPGA プロトタイプは、特定の精度レベルで同様のパフォーマンスを示し、消費電力を最大 3.34 倍削減します。

要約(オリジナル)

The trend of modeless ML inference is increasingly growing in popularity as it hides the complexity of model inference from users and caters to diverse user and application accuracy requirements. Previous work mostly focuses on modeless inference in data centers. To provide low-latency inference, in this paper, we promote modeless inference at the edge. The edge environment introduces additional challenges related to low power consumption, limited device memory, and volatile network environments. To address these challenges, we propose HawkVision, which provides low-latency modeless serving of vision DNNs. HawkVision leverages a two-layer edge-DC architecture that employs confidence scaling to reduce the number of model options while meeting diverse accuracy requirements. It also supports lossy inference under volatile network environments. Our experimental results show that HawkVision outperforms current serving systems by up to 1.6X in P99 latency for providing modeless service. Our FPGA prototype demonstrates similar performance at certain accuracy levels with up to a 3.34X reduction in power consumption.

arxiv情報

著者 ChonLam Lao,Jiaqi Gao,Ganesh Ananthanarayanan,Aditya Akella,Minlan Yu
発行日 2024-05-29 15:56:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI, cs.SY, eess.SY パーマリンク