要約
浮動小数点の非結合性によって引き起こされる並列プログラムの実行ごとの変動は、エラーが蓄積するため、反復アルゴリズムの再現性に大きな影響を与えることが知られています。
再現性がないことは、確率的プログラムの正当性テストの効率と有効性に重大な影響を与える可能性があります。
最近、深層学習のトレーニングと推論パイプラインの浮動小数点の非結合性に対する感度が極端に高くなる場合があることが判明しました。
これにより、商用アプリケーションの認証、堅牢性と感度の正確な評価、バグ検出が妨げられる可能性があります。
科学計算アプリケーションにおける新しいアプローチにより、深層学習モデルとハイパフォーマンス コンピューティングが結合され、デバッグとテストの課題が悪化しています。
ここでは、最新の並列プログラミング モデル内で浮動小数点の非結合性の統計的特性を調査し、GPU 上でアトミックな操作を決定論的な代替手段に置き換えることによるパフォーマンスと生産性への影響を分析します。
私たちは、深層学習のための GPU デプロイメントのコンテキスト内で PyTorch に最近追加された決定論的オプションを検証し、実行間の変動を引き起こす入力パラメーターの影響を明らかにして定量化し、ドキュメントの信頼性と完全性について報告します。
最後に、深層学習パイプラインの推論部分に Groq アクセラレータを使用して、決定論的ハードウェアによって提供される自動決定論を利用する戦略を評価します。
私たちは、ハードウェアベースの戦略が再現性と正確性の取り組みの中で提供できる利点を実証します。
要約(オリジナル)
Run to run variability in parallel programs caused by floating-point non-associativity has been known to significantly affect reproducibility in iterative algorithms, due to accumulating errors. Non-reproducibility can critically affect the efficiency and effectiveness of correctness testing for stochastic programs. Recently, the sensitivity of deep learning training and inference pipelines to floating-point non-associativity has been found to sometimes be extreme. It can prevent certification for commercial applications, accurate assessment of robustness and sensitivity, and bug detection. New approaches in scientific computing applications have coupled deep learning models with high-performance computing, leading to an aggravation of debugging and testing challenges. Here we perform an investigation of the statistical properties of floating-point non-associativity within modern parallel programming models, and analyze performance and productivity impacts of replacing atomic operations with deterministic alternatives on GPUs. We examine the recently-added deterministic options in PyTorch within the context of GPU deployment for deep learning, uncovering and quantifying the impacts of input parameters triggering run to run variability and reporting on the reliability and completeness of the documentation. Finally, we evaluate the strategy of exploiting automatic determinism that could be provided by deterministic hardware, using the Groq accelerator for inference portions of the deep learning pipeline. We demonstrate the benefits that a hardware-based strategy can provide within reproducibility and correctness efforts.
arxiv情報
著者 | Sanjif Shanmugavelu,Mathieu Taillefumier,Christopher Culver,Oscar Hernandez,Mark Coletti,Ada Sedova |
発行日 | 2024-10-30 16:52:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google