MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural Networks




– ディープニューラルネットワーク(DNNs)が様々なアプリケーション領域で広く採用されるにつれて、複数のDNNが同じハードウェア上で同時に展開されるマルチテナント実行が提案され、異なるアプリケーションのレイテンシ要件を満たしながら、全体的なシステム利用率を改善することができるようになりました。
– ただし、マルチテナント実行は、望ましくないシステムレベルのリソース競合を引き起こす可能性があり、レイテンシ要件が厳しいアプリケーションのQoSの低下を引き起こす可能性があります。
– この課題に対処するために、我々は、DNNアクセラレータのための適応的なマルチテナントシステムであるMoCAを提案しています。
– MoCAは、コンピュートリソースのパーティションに焦点を当てた既存のソリューションとは異なり、共有メモリリソースを動的に管理し、共有アプリケーションのレイテンシターゲットとユーザー定義の優先順位に基づいてメモリアクセス速度を動的に調整し、共存するアプリケーションが必要とするリソースを得ることができるようにします。
– MoCAは、SLAの満足度を先行研究と比較して最大で3.9倍(平均1.8倍)、システムスループットを最大で2.3倍(平均1.7倍)、フェアネスを最大で1.3倍(平均1.2倍)向上させることができることを示しています。


Driven by the wide adoption of deep neural networks (DNNs) across different application domains, multi-tenancy execution, where multiple DNNs are deployed simultaneously on the same hardware, has been proposed to satisfy the latency requirements of different applications while improving the overall system utilization. However, multi-tenancy execution could lead to undesired system-level resource contention, causing quality-of-service (QoS) degradation for latency-critical applications. To address this challenge, we propose MoCA, an adaptive multi-tenancy system for DNN accelerators. Unlike existing solutions that focus on compute resource partition, MoCA dynamically manages shared memory resources of co-located applications to meet their QoS targets. Specifically, MoCA leverages the regularities in both DNN operators and accelerators to dynamically modulate memory access rates based on their latency targets and user-defined priorities so that co-located applications get the resources they demand without significantly starving their co-runners. We demonstrate that MoCA improves the satisfaction rate of the service level agreement (SLA) up to 3.9x (1.8x average), system throughput by 2.3x (1.7x average), and fairness by 1.3x (1.2x average), compared to prior work.


著者 Seah Kim,Hasan Genc,Vadim Vadimovich Nikiforov,Krste Asanović,Borivoje Nikolić,Yakun Sophia Shao
発行日 2023-05-10 02:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AR, cs.DC, cs.LG パーマリンク