Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows

要約

私たちは、GPU 対応ワーカーが連携して複雑なクエリを実行する分散システムにおける ML クエリ処理を検討します。これは、画像処理や自然言語処理をサポートしてユーザーと対話するアプリケーションでよく見られるコンピューティング スタイルです。
このようなシステムでは、GPU メモリ管理とタスク配置の同時スケジューリングが有望な機会となります。
私たちは、これらの機能を統合してリソースを効率的に使用し、データの依存関係が満たされる場所にタスクを配置し、同じジョブのタスクを (ホストまたはその GPU に過負荷にならない場合に) 配置し、効率的にジョブのレイテンシを短縮するために、これらの機能を統合する新しいフレームワークである Compass を提案します。
GPUメモリの管理。
他の最先端のスケジューラと比較すると、必要なリソースは同じか、さらに少ないにもかかわらず、完了時間が大幅に短縮されていることがわかります。
あるケースでは、同じワークロードの処理に必要なサーバーは半分だけでした。

要約(オリジナル)

We consider ML query processing in distributed systems where GPU-enabled workers coordinate to execute complex queries: a computing style often seen in applications that interact with users in support of image processing and natural language processing. In such systems, coscheduling of GPU memory management and task placement represents a promising opportunity. We propose Compass, a novel framework that unifies these functions to reduce job latency while using resources efficiently, placing tasks where data dependencies will be satisfied, collocating tasks from the same job (when this will not overload the host or its GPU), and efficiently managing GPU memory. Comparison with other state of the art schedulers shows a significant reduction in completion times while requiring the same amount or even fewer resources. In one case, just half the servers were needed for processing the same workload.

arxiv情報

著者 Yuting Yang,Andrea Merlina,Weijia Song,Tiancheng Yuan,Ken Birman,Roman Vitenberg
発行日 2024-02-28 17:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク