Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression

要約

この研究では、ディープ ニューラル ネットワークを使用した動作クローニングのトレーニングの不安定性を研究しています。
トレーニング中のポリシー ネットワークへのミニバッチ SGD 更新により、行動複製の損失にほとんど影響を与えないにもかかわらず、長期的な報酬に急激な変動が生じることが観察されました。
私たちは、これらの振動の統計的および計算的原因を経験的に解きほぐし、不安定な閉ループダイナミクスを介したミニバッチ SGD ノイズのカオス的な伝播に起因することを発見しました。
SGD ノイズは、シングルステップのアクション予測目標では問題ありませんが、長期にわたる壊滅的な誤差の蓄積をもたらし、これを勾配分散増幅 (GVA) と呼んでいます。
多くの標準的な緩和手法は GVA を軽減しないが、反復の指数移動平均 (EMA) が驚くほど効果的であることを示します。
連続制御と自己回帰言語生成の両方における GVA の存在と EMA によるその改善を示すことで、この現象の一般性を説明します。
最後に、GVA の軽減における EMA の利点を強調する理論的な概要を提供し、ディープ ラーニングにおける反復平均の利点を理解する上で古典的な凸モデルがどの程度役立つかを明らかにします。

要約(オリジナル)

This work studies training instabilities of behavior cloning with deep neural networks. We observe that minibatch SGD updates to the policy network during training result in sharp oscillations in long-horizon rewards, despite negligibly affecting the behavior cloning loss. We empirically disentangle the statistical and computational causes of these oscillations, and find them to stem from the chaotic propagation of minibatch SGD noise through unstable closed-loop dynamics. While SGD noise is benign in the single-step action prediction objective, it results in catastrophic error accumulation over long horizons, an effect we term gradient variance amplification (GVA). We show that many standard mitigation techniques do not alleviate GVA, but find an exponential moving average (EMA) of iterates to be surprisingly effective at doing so. We illustrate the generality of this phenomenon by showing the existence of GVA and its amelioration by EMA in both continuous control and autoregressive language generation. Finally, we provide theoretical vignettes that highlight the benefits of EMA in alleviating GVA and shed light on the extent to which classical convex models can help in understanding the benefits of iterate averaging in deep learning.

arxiv情報

著者 Adam Block,Dylan J. Foster,Akshay Krishnamurthy,Max Simchowitz,Cyril Zhang
発行日 2023-10-17 17:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク