RAF: Holistic Compilation for Deep Learning Model Training

要約

ディープ ラーニングは最新のアプリケーションに普及しているため、ディープ ラーニングの実践者が DNN モデルを迅速に開発およびトレーニングできるように、多くのディープ ラーニング フレームワークが提供されています。
一方、大規模なディープ ラーニング モデルのトレーニングが近年のトレンドになるにつれて、トレーニングのスループットとメモリ フットプリントが重要になってきています。
したがって、コンパイラの最適化を使用してトレーニング ワークロードを最適化することは避けられず、ますます注目を集めています。
ただし、既存のディープ ラーニング コンパイラ (DLC) は主に推論を対象としており、自動微分や自動混合精度などの全体的な最適化をトレーニング ワークロードに組み込んでいません。
このホワイト ペーパーでは、トレーニング用のディープ ラーニング コンパイラである RAF を紹介します。
既存の DLC とは異なり、RAF はフォワード モデルを受け入れ、社内でトレーニング グラフを生成します。
したがって、RAF は、パフォーマンス、メモリ、および分散トレーニングのグラフ最適化を体系的に統合することができます。
さらに、手作業で作成されたカーネル ライブラリとテンソル コンパイラを使用して最先端のパフォーマンスに追いつくために、RAF は、考えられるすべてのカーネル実装をシームレスに統合するオペレータ ダイアレクト メカニズムを提案しています。
社内のトレーニング グラフ生成とオペレーター ダイアレクト メカニズムにより、全体的な最適化を実行し、PyTorch (eager および torchscript モード)、XLA、および一般的なトランスフォーマー モデルの DeepSpeed に対して、より優れたトレーニング スループットまたはより大きなバッチ サイズを達成できることを実証します。
GPU。

要約(オリジナル)

As deep learning is pervasive in modern applications, many deep learning frameworks are presented for deep learning practitioners to develop and train DNN models rapidly. Meanwhile, as training large deep learning models becomes a trend in recent years, the training throughput and memory footprint are getting crucial. Accordingly, optimizing training workloads with compiler optimizations is inevitable and getting more and more attentions. However, existing deep learning compilers (DLCs) mainly target inference and do not incorporate holistic optimizations, such as automatic differentiation and automatic mixed precision, in training workloads. In this paper, we present RAF, a deep learning compiler for training. Unlike existing DLCs, RAF accepts a forward model and in-house generates a training graph. Accordingly, RAF is able to systematically consolidate graph optimizations for performance, memory and distributed training. In addition, to catch up to the state-of-the-art performance with hand-crafted kernel libraries as well as tensor compilers, RAF proposes an operator dialect mechanism to seamlessly integrate all possible kernel implementations. We demonstrate that by in-house training graph generation and operator dialect mechanism, we are able to perform holistic optimizations and achieve either better training throughput or larger batch size against PyTorch (eager and torchscript mode), XLA, and DeepSpeed for popular transformer models on GPUs.

arxiv情報

著者 Cody Hao Yu,Haozheng Fan,Guangtai Huang,Zhen Jia,Yizhi Liu,Jie Wang,Zach Zheng,Yuan Zhou,Haichen Shen,Junru Shao,Mu Li,Yida Wang
発行日 2023-03-08 17:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PL パーマリンク