Saturn: An Optimized Data System for Large Model Deep Learning Workloads

要約

GPT-3 や ChatGPT などの大規模な言語モデルはディープ ラーニング (DL) を変革し、一般の人々の想像力を魅了するアプリケーションを強化しました。
これらのモデルは、多くの場合、事前トレーニングされたベース モデルを微調整することによって、さまざまなモダリティの分析のためにドメイン全体で急速に採用されています。
このようなモデルは、サイズと計算負荷の両方により複数の GPU を必要とするため、一連の「モデル並列処理」技術とツールの開発が推進されています。
ただし、このような並列処理の選択は、必要なシステムのノウハウを持たないデータ サイエンティストやドメイン サイエンティストなどの DL のエンド ユーザーにとって新たな負担となります。
モデル選択の必要性により、ハイパーパラメーター調整またはレイヤーごとの微調整により多くのモデルをトレーニングする必要が生じ、リソースの割り当てとスケジューリングという 2 つの負担がさらに発生して状況がさらに悪化します。
この研究では、DL ユーザーに対するこれら 3 つの負担を、並列処理の選択、リソースの割り当て、およびスケジュールという、SPASE と呼ばれる共同問題として形式化することで、統合された方法で取り組みます。
我々は、SPASE 問題に総合的に取り組むための新しい情報システム アーキテクチャを提案します。これは、大規模な DL モデルの幅広い採用を可能にするための重要なステップとなります。
私たちは、既存の並列処理スキーム用の拡張可能なテンプレートを考案し、それを実行時間推定用の自動経験的プロファイラーと組み合わせます。
次に、SPASE を MILP として定式化します。
MILP ソルバーを直接使用する方が、いくつかのベースライン ヒューリスティックよりも大幅に効果的であることがわかりました。
内省的なスケジューリング アプローチにより、システムの実行時間をさらに最適化します。
私たちはこれらすべてのテクニックを、サターンと呼ばれる新しいデータ システムに実装します。
ベンチマーク DL ワークロードを使用した実験では、Saturn が現在の一般的な DL 実践よりも 39 ~ 49% 短いモデル選択ランタイムを達成することが示されています。

要約(オリジナル)

Large language models such as GPT-3 & ChatGPT have transformed deep learning (DL), powering applications that have captured the public’s imagination. These models are rapidly being adopted across domains for analytics on various modalities, often by finetuning pre-trained base models. Such models need multiple GPUs due to both their size and computational load, driving the development of a bevy of ‘model parallelism’ techniques & tools. Navigating such parallelism choices, however, is a new burden for end users of DL such as data scientists, domain scientists, etc. who may lack the necessary systems knowhow. The need for model selection, which leads to many models to train due to hyper-parameter tuning or layer-wise finetuning, compounds the situation with two more burdens: resource apportioning and scheduling. In this work, we tackle these three burdens for DL users in a unified manner by formalizing them as a joint problem that we call SPASE: Select a Parallelism, Allocate resources, and SchedulE. We propose a new information system architecture to tackle the SPASE problem holistically, representing a key step toward enabling wider adoption of large DL models. We devise an extensible template for existing parallelism schemes and combine it with an automated empirical profiler for runtime estimation. We then formulate SPASE as an MILP. We find that direct use of an MILP-solver is significantly more effective than several baseline heuristics. We optimize the system runtime further with an introspective scheduling approach. We implement all these techniques into a new data system we call Saturn. Experiments with benchmark DL workloads show that Saturn achieves 39-49% lower model selection runtimes than typical current DL practice.

arxiv情報

著者 Kabir Nagrecha,Arun Kumar
発行日 2023-12-13 18:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク