On the accuracy and efficiency of group-wise clipping in differentially private optimization

要約

最近の進歩により、特に数百万から数十億のパラメータを持つ大規模なビジョンおよび言語モデルにおいて、差分プライベート (DP) 深層学習の精度、メモリ コスト、トレーニング速度が大幅に向上しました。
この研究では、DP 最適化の重要なコンポーネントであるサンプルごとの勾配クリッピング スタイルを徹底的に研究します。
異なるクリッピング スタイルは時間の複雑さは同じですが、精度とメモリのトレードオフが発生することを示します。全層クリッピング (粒度が粗い) が最も普及しており、通常は最高の精度が得られますが、クリッピング スタイルは、クリッピング スタイルと比べてメモリ コストが高くなります。
(より細かい粒度の) レイヤーごとのクリッピングなど、他のグループごとのクリッピング。
私たちは、収束理論と複雑さの分析を通じてこのトレードオフを定式化します。
重要なのは、グループごとのクリッピングのメモリ上の利点はそのままである一方で、グループごとのクリッピングと全層クリッピングの間の精度の差はモデルが大きくなるほど小さくなることを示していることです。
その結果、グループごとのクリッピングにより、大規模モデルの DP 最適化が可能になり、高精度と低ピーク メモリを同時に実現できます。

要約(オリジナル)

Recent advances have substantially improved the accuracy, memory cost, and training speed of differentially private (DP) deep learning, especially on large vision and language models with millions to billions of parameters. In this work, we thoroughly study the per-sample gradient clipping style, a key component in DP optimization. We show that different clipping styles have the same time complexity but instantiate an accuracy-memory trade-off: while the all-layer clipping (of coarse granularity) is the most prevalent and usually gives the best accuracy, it incurs heavier memory cost compared to other group-wise clipping, such as the layer-wise clipping (of finer granularity). We formalize this trade-off through our convergence theory and complexity analysis. Importantly, we demonstrate that the accuracy gap between group-wise clipping and all-layer clipping becomes smaller for larger models, while the memory advantage of the group-wise clipping remains. Consequently, the group-wise clipping allows DP optimization of large models to achieve high accuracy and low peak memory simultaneously.

arxiv情報

著者 Zhiqi Bu,Ruixuan Liu,Yu-Xiang Wang,Sheng Zha,George Karypis
発行日 2023-10-30 01:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CR, cs.LG パーマリンク