AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster

要約

オフライン バッチ推論は、ディープ ラーニング アプリケーションの業界で一般的なタスクですが、大量のデータと複雑な推論パイプラインを扱う場合、安定性とパフォーマンスを確保することが困難になる場合があります。
このペーパーでは、非専用クラスター用に特別に最適化された弾性バッチ推論フレームワークである AntBatchInfer をデモしました。
AntBatchInfer は、マルチレベルのフォールト トレラント機能を提供することでこれらの課題に対処し、多用途で長時間実行される推論タスクの安定した実行を可能にします。
また、パイプライン化、ノード内、およびノー​​ド間のスケーリングによって推論効率も向上します。
複雑な複数モデルのバッチ推論シナリオでのパフォーマンスをさらに最適化します。
広範な実験と実際の統計を通じて、私たちは安定性と効率性の点でフレームワークの優位性を実証しています。
実験では、単一モデルまたは複数モデルのバッチ推論でベースラインを少なくとも $2\times$ および $6\times$ 上回りました。
また、Ant Group でも広く使用されており、DLRM、CV、NLP などのさまざまなシナリオから毎日数千のジョブが実行されており、業界での実用性が証明されています。

要約(オリジナル)

Offline batch inference is a common task in the industry for deep learning applications, but it can be challenging to ensure stability and performance when dealing with large amounts of data and complicated inference pipelines. This paper demonstrated AntBatchInfer, an elastic batch inference framework, which is specially optimized for the non-dedicated cluster. AntBatchInfer addresses these challenges by providing multi-level fault-tolerant capabilities, enabling the stable execution of versatile and long-running inference tasks. It also improves inference efficiency by pipelining, intra-node, and inter-node scaling. It further optimizes the performance in complicated multiple-model batch inference scenarios. Through extensive experiments and real-world statistics, we demonstrate the superiority of our framework in terms of stability and efficiency. In the experiment, it outperforms the baseline by at least $2\times$ and $6\times$ in the single-model or multiple-model batch inference. Also, it is widely used at Ant Group, with thousands of daily jobs from various scenarios, including DLRM, CV, and NLP, which proves its practicability in the industry.

arxiv情報

著者 Siyuan Li,Youshao Xiao,Fanzhuang Meng,Lin Ju,Lei Liang,Lin Wang,Jun Zhou
発行日 2024-04-15 11:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク